NEW BOT Телеграм, страница

VAST: Video-Audio Separation through Text. Language-Guided Audio-Visual Source Separation via Trimodal Consistency

Изоляция источников звука на видео по текстовому запросу. Этакий vocalremover на стероидах. Указываем кого хотим слышать, кого не хотим - получаем изолированный звук от выбранного источника

Код

#audio2audio #video2video #video2audio #audioseparation #unmix

586 views12:15

Нейронавт | Нейросети в творчестве

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

1:22

Media is too big

VIEW IN TELEGRAM

21 июня вышла первая серия «Секретного вторжения» — сериала Marvel о попытках Ника Фьюри предотвратить вторжение пришельцев скруллов на Землю.

После релиза выяснилось, что вступительные титры сериала явно создавали с помощью нейросетей.

Постановщику и компании Method Studios, создавшей ролик, показалось, что использование нейросетей в этом случае уместно. А режиссер признался, что не знает, как работает технология.

Зрителей просто разорвало на пуканы.
Читайте тут, как они проклинают и Marvel и режиссера.
https://dtf.ru/cinema/1903493-nastoyashchiy-pozor-marvel-raskritikovali-za-sozdanie-zastavki-k-sekretnomu-vtorzheniyu-s-pomoshchyu-neyrosetey

Для меня есть два момента.

1. Режиссер в данном случае - царь и бог, если он сказал ок, то все сделали как он сказал. Нейросети или пиксел арт - неважно. Режиссер принял - все выдохнули.

2. Как же круто наварились Method Studio. Я могу представить, во сколько они осметили титры. Но опять же, все по чесноку. Режиссеру нравится, значит все ок. А как делали, дело десятое

393 views13:30

Нейронавт | Нейросети в творчестве

Forwarded from эйай ньюз

Утекли подробности про GPT-4.

Говорят, что это смесь из 8 экспертов, каждый по 220 млрд параметров. То есть в сумме 1.760 триллиона параметров! Соумит Чинтала (один из создателей PyTorch) тоже подтвердил слух.

Эксперты в этом случае — это просто копии модели GPT, на 220B параметров, которые тренировались отдельно и скорее всего на различных данных.

Во время инференса у них там какие-то хитрые трюки для того, чтобы выбрать ответы каких экспертов выдавать юзеру.

@ai_newz

👍6

439 views05:33

Нейронавт | Нейросети в творчестве

Fast Segment Anything

Быстрый сегментатор изображений, в 50 раз быстрее SAM. 40 миллисекунд на одну картинку. Прощай, SAM

Код
Демо (периодически падает). На демо сегментация занимает несколько секунд. Несколько моих примеров в комментариях

#segmentation #image2mask #video2mask

👍1

598 viewsedited 07:00

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

В NVIDIA разработали модель, которая достраивает неполные облака точек. Результаты 3D-сканирования (например с лидаров) часто не охватывают объекты целиком, оставляя "белые пятна", где данных о форме объекта не хватает. Эта модель генерирует недостающие данные на основе существующих и текстовой подсказки.

А что с текстурами, NVIDAI?

Код обещают выложить

#3Dto3D #3Dreconstruction #photogrammetry

546 views07:24

Нейронавт | Нейросети в творчестве

Forwarded from AI для Всех

Ай-ЖЕПА: умная модель AI, которая учится понимать мир как люди

Meta представили первую AI модель, основанную на ключевом компоненте видения Яна ЛеКуна. Модель I-JEPA выучивает скрытое представление окружающего мира и отличается высокой эффективностью в различных задачах компьютерного зрения.

В прошлом году главный научный сотрудник по AI в Meta, Ян ЛеКун, предложил новую архитектуру, призванную преодолеть ключевые ограничения даже самых передовых AI систем сегодня. Его видение - создать машины, которые способные понять, как работает мир. Он считает что тогда они и обучаться будут быстрее, и планировать, как выполнять сложные задачи, и легко адаптироваться к незнакомым ситуациям тоже смогут.

И вот, Meta наконец то представили первую AI модель, основанную на ключевом компоненте видения ЛеКуна. Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится создавать модель окружающего мира с помощью сравнения абстрактных образов (вместо сравнения просто пикселей.

I-JEPA демонстрирует потенциал self-supervised архитектур для представлений изображений без необходимости в дополнительном знании, закодированном через ручные преобразования изображений. Это важный шаг к применению и масштабированию self-supervised методов для изучения общей модели мира.

И пусть "Ай-ЖЕПА" в русском языке может и звучать немного забавно, Meta делает ставку на то, что AGI к нам придет от зрения (вообще кажется все компании так или иначе делают ставку на один орган осязания, например на язык как в случае с Open AI).

✌️ Блог-пост
📖 Статья
💾 Код

527 views07:42

Нейронавт | Нейросети в творчестве

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Mask Prompter

Генератор масок для AfterEffects.
Как-то я не сильно следил за плагинами и скриптами для AE. А оказывается вот такие штуки есть. $49.99 для честных людей.
поддерживает АЕ 2022 и выше

Туториал

#video2mask #segmentation #matting

756 views11:08

Нейронавт | Нейросети в творчестве

Forwarded from Малоизвестное интересное

Что делают в «секретной» лаборатории OpenAI.
LVM – это не только новое кино, но и новый мир.
Мне уже приходилось рассказывать о своем поразительном опыте путешествия в будущее, - и не в метафорическом или публицистическом смысле, а в буквальном. Тогда (28 лет назад) в «секретной» лаборатории SGI я вживую опробовал несколько технологий, опередивших на четверть века своё массовое внедрение: визуальные симуляторы многомерных функциональных пространств и симуляторы полета над ландшафтами данных. Тогда же, в соседней «секретной» лаборатории SGI меня впервые оцифровали на 3D сканере. И тут же, на основе этой цифровой копии, создали и показали мне моего цифрового двойника, управлять которым я мог с графического суперкомпьютера SGI Onyx.

Ну а вспомнил я сегодня об этом из-за проговорок гендира OpenAI Сэма Альтмана о перспективах перехода от LLM (Large Language Models) к LVM (Large Video Models). В этом направлении сейчас копают и люди Цукерберга, и китайцы. Но приоритет OpenAI в LLM достаточно велик, чтобы сделать ставку на прорывной разработке LVM в своих «секретных» лабах.

О чем же идет речь?
О двух фантастически прибыльных областях бизнеса.
1. Создание нового типа кино, на основе тотального перехода на цифровые дубликаты кинозвезд.
2. Создание нового типа массовых развлечений на основе использования цифровых дубликатов пользователей для их путешествий в виртуальные миры Метаверса.

Первое
Использование цифровых дубликатов звезд кино и спорта уже становится распространенной практикой. Но чтобы создать на этой технологической базе новый тип кино, нужно более мощное железо, чтобы все делать влет и прямо на студии, а не долгими расчетами на огромных сторонних компьютерных фермах.

Что из себя будет представлять новый тип кино, когда «железо» позволит, показано в 1м эпизоде 6го сезона «Черное зеркало» - «Джоан ужасна» (смотрите сами или, кто хочет, читайте детальный спойлер).
В этом эпизоде хорошо показано, как переход на новый тип кино колоссально изменит многие аспекты жизни общества и отдельных людей. Это будет уже иной мир.

Второе
Как будет работать перенос цифровых дубликатов пользователей в виртуальные миры, показано в другой модной новинке – китайском сериале «Задача трёх тел», литературной основой которого стал знаменитый роман Лю Цысиня).

Ключом к разгадке серии таинственных самоубийств ученых по всей Земле является компьютерная игра «Задача трёх тел», переносящая пользователя в иной мир с тремя солнцами — планету Трисолярис. Ну а то, насколько технология переноса цифровых дубликатов людей в виртуальный мир эффективна, можно судить по тому, что эта «игра» становится своего рода порталом. Через него инопланетяне вербуют сторонников на Земле, с целью заполучить ее в свои руки.

Последнее
Оба новых направления на основе LVM сулят колоссальные деньги, несравнимые с тем, что OpenAI и Microsoft могут заработать в мире на LLM. И поэтому есть все основания предполагать, что именно на LVM сейчас сфокусированы исследовани и разработки OpenAI.
Ну а всякие там GPT 5,6,7 … - это, как говорится, их «business as usual», а не стратегическая ставка на десятилетие.
#LVM

❤1

474 views11:52

Нейронавт | Нейросети в творчестве

Нейропрогнозирование. Исследователи из Клэрмонтского университета с точностью 97% смогли предсказать какие песни окажутся хитами. Для этого они собрали данные о нейронной активности 33 слушателей и применили к собранным данным машинное обучение.

Подробнее на Хабре

#cyberpunk

🔥6👍1

647 views12:32

Нейронавт | Нейросети в творчестве

Forwarded from эйай ньюз

🔥Stable Diffusion SDXL 0.9

А вот и официальное подтверждение релиза новой модели, но пока без ссылки на код.

Модель SDXL 0.9 имеет 3.5 B параметров в базовой версии. И будет ещё ансамбль из двух моделей, суммарно на 6.6 B параметров.

Для текстового гайданса вместо одной CLIP модели используется конкатенация из двух: базовый клип от OpenAI)и OpenCLIP ViT-G/14. Это позволяет генерировать более точные детали на картинках.

На парных картинках — сравнение результатов SDXL beta и новой версии SDXL 0.9. Качество сильно возросло

Во время инференса нужна будет видеокарта с 16 GB VRAM.

Ждём блог пост со всеми деталями и сам код (который по идее должен появиться сегодня).

https://stability.ai/blog/sdxl-09-stable-diffusion

@ai_newz

😁2❤1

373 views19:14

Нейронавт | Нейросети в творчестве

4:10

Media is too big

VIEW IN TELEGRAM

AudioPaLM
A Large Language Model That Can Speak and Listen

Google представил модель понимания и генерации речи, способную переводить речь на разные языки. В основе архитектуры текстовая модель PALM-2 и речевая AudioLM
При переводе AudioPaLM сохраняет индивидуальные характеристики и интонации оригинального голоса.
На сайте множество примеров.

Кода нет

#audio2audio #speech2speech

620 views07:13

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Midjourney обновили до версии V5.2. Среди прочих нововведений функция Zoom Out - аналог Generative Fill.
Держат нос по ветру, молодцы

#zoomout #outpainting

🔥4❤1

681 views07:49

Нейронавт | Нейросети в творчестве

Если вы не хотели загружать версию Opera One для разработчиков и ждали пользовательскую, то вот она.
В браузер интергрированы три ИИ ассистента: ChatGPT, Chatsonic и, конечно, своя разработка - Aria. Для ChatGPT потребуется логин/пароль/VPN

скачать Opera One

#chatbot

👍4

613 views09:21

Нейронавт | Нейросети в творчестве

0:25

This media is not supported in your browser

HyperReel: High-Fidelity 6-DoF Video with Ray-Conditioned Sampling

Мы много видели способов получить реконструкцию изображения с нового ракурса. Но то все было про статичные изображения, в редких случаях NeRF. HyperReel покажет вам изменение ракурса на видео. Я не понял, сколько исходных ракурсов видео надо ему скормить. Выглядит как магия.
Прекрасно, что можно попытаться поиграть с ним, ибо есть

Код

#novelview #video2video #rendering

👍4❤1

1.9K views12:03

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Neuralangelo интегрировали в SDFStudio
Да, его можно установить (с гитхаба) и пользоваться. В деле замешан Nerfstuduio, и можно пользоваться его вьюером.

Код

#nerf #rendering

🔥3

845 views12:12

About

Blog

Apps

Platform