NEW BOT Телеграм, страница

🔥CM3leon - Новая универсальная генеративная модель для Картинок и текста

Ребята из Meta AI (FAIR) представили новую генеративную модель. Это по сути мультимодальная decoder-only LLM на базе архитектуры OPT, которая умеет работать как с изображениями, так и с текстом.

Для картинок используется предобученный токенизатор VQ-VAE, который разбивает 256x256 изображеие на 1024 токена из словаря размером в 8192.

Натренили модельку на 7 млрд параметров — CM3Leon-7B, которая хорошо генерит в 256x256 и выдает state-of-the-art FID = 4.8 на MS-COCO.

Модель умеет:
1. text-to-image
2. image-to-text, то есть можно спрашивать любые вопросы по картинке
3. image-to-image с текстовой инструкцией

Одна генерация 256x256 занимает 9 сек в int8 (для сравнения авторегрессионная модель Parti-3В требует 6.4 сек, но дает хуже результаты).

Блог
Статья

@ai_newz

425 views07:50

Нейронавт | Нейросети в творчестве

FreeDrag: Point Tracking is Not You Need for Interactive Point-based Image Editing Конкурент DragGAN, более лучший. Код обещают выложить #image2image

FreeDrag выложили код и колаб.
Первопроходцы, отпишитесь как там все работает?

Код
Колаб

#image2image

GitHub

GitHub - LPengYang/FreeDrag: [CVPR 2024] Official implementation of FreeDrag: Feature Dragging for Reliable Point-based Image Editing

[CVPR 2024] Official implementation of FreeDrag: Feature Dragging for Reliable Point-based Image Editing - LPengYang/FreeDrag

👍1

566 views07:56

Нейронавт | Нейросети в творчестве

1:18

This media is not supported in your browser

VIEW IN TELEGRAM

Unloop

ИИ-лупер для музыкантов c VampNet под капотом. Придумывает на лету свои вариации сыгранных вами фрагментов.

Unloop представляет собой патч для MAX. Надеюсь, музыканты знают что это такое, потому что я не знаю. Инструкция по установке по ссылке:

Код

#music2music #audio2audio #AImusic

👍1

661 views08:16

Нейронавт | Нейросети в творчестве

3:34

This media is not supported in your browser

VIEW IN TELEGRAM

Air

"первый в мире" искусственный интеллект, который может принимать телефонные звонки продолжительностью 10-40 минут, звучащие как у настоящего человека, с бесконечной памятью, идеальным запоминанием и способный автономно выполнять действия в более чем 5000 приложениях. Он может выполнять всю работу агента, работающего полный рабочий день, без необходимости в обучении, управлении или мотивации.

Ну все, готовимся к новой волне телефонных разводов, теперь с ИИ

твиттер

#voicebot #LLM не знаю какие еще теги сюда придумать

🔥4

786 views08:37

Нейронавт | Нейросети в творчестве

2:02

This media is not supported in your browser

VIEW IN TELEGRAM

fabrie

Дизайн-среда с ControlNet натасканным на визуализацию скечей.

100 бесплатных генераций в день. Платных тарифов пока нет. Но видимо планируются, потому что есть рефералка.

реддит
ProductHunt

#sketch2image #design #image2image

👍2

647 views08:53

Нейронавт | Нейросети в творчестве

PSLD: Solving Linear Inverse Problems Provably via Posterior Sampling with Latent Diffusion Models

Новый метод использования диффузионных моделей для инпейнтинга без дообучения, апскейла, удаления шума, удаления моушенблюра, восстановления резкости. Выглядит впечатляюще

Код
Демо

#image2image #inpainting #deblur #denoise #upscale #superresulution

👍4❤1

610 views09:06

Нейронавт | Нейросети в творчестве

1:22

This media is not supported in your browser

VIEW IN TELEGRAM

1:11

This media is not supported in your browser

VIEW IN TELEGRAM

NIFTY: Neural Object Interaction Fieldsfor Guided Human Motion Synthesis

Модель взаимодействия 3D-человеков с 3D-объектами.
Собрались вместе Университет Мичигана, Стэнфорд, Google и NVIDIA. Это как Мстители, только в области 3D-технологий. Да и придумали назначить 3D-объектам так называемое поле взаимодействия. Это поле и управляет анимацией персонажа, взаимодействующего с объектом. А взаимодействия это отдельная попоболь в 3D. Видимо, там серьезные планы на AR гарнитуры, цифровые аватары и вот это все.

Код обещают выложить

#humananimation

603 views11:20

Нейронавт | Нейросети в творчестве

1:58

This media is not supported in your browser

VIEW IN TELEGRAM

ReVersion : Diffusion-BasedRelation Inversion from Images

А тут про взаимодействия в 2D.
По нескольким образцам нейросеть выучивает в каких отношениях состоят объекты на изображении (взаимное расположение, способ взаимодействия и т д.), после чего можно генерировать другие объекты в таких же отношениях.

Код
Демо

#image2image

👍1

618 views11:28

Нейронавт | Нейросети в творчестве

BoostPixels

Занятный генератор flat-lay фотографий (не знаю как это называется у русских фотографов) по заданному логотипу

#image2image

🔥4

719 views11:42

Нейронавт | Нейросети в творчестве

Немножко хвастовства.
Вчера пришел диплом от Deep Learning School за прохождение первого семестра. Все-таки не зря старался

👏18❤3

708 views11:47

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

INVE: Interactive Neural Video Editing
Редактор видео в реальном времени.
Трек плывет, но для тиктока сойдет.
Для блогеров бомба. Видимо, туда эту тулзу и интегрируют в будущем. Разработака Adobe research, так что ждем в мобильном Премьере или как там оно называется.

Кода нет

#video2video

767 views14:49

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

CoTracker: It is Better to Track Together

Трекер группы точек.
Обратите внимание как он продолжает отслеживать точки даже когда они уже перекрыты другими объектами.
Я бы нашел применение такому инструменту в композе.

Код
Колаб

#tracking #opticalflow

👍3❤2

890 views14:59

About

Blog

Apps

Platform