NEW BOT Телеграм, страница

😭 SadTalker
Генератор говорящей головы по картинке и аудиофайлу.

Авторы планируют сделать генерацию 3D-голов и поделиться интеграцией в automatic1111.
Среди авторов Tencent AI Lab, известная работами в области реставрации фото и прочими разработками.

Код

#audio2video #audio2animation #speech2animation #speech2avatar #image2video #talkinghead #facialanimation

🔥2

307 views11:58

Нейронавт | Нейросети в творчестве

Forwarded from Технологии | Нейросети | Боты

Израильский стартап D-ID, разработавший ранее технологию Deep Nostalgia, объявил о выходе бета-версии нового веб-приложения chat.D-ID, которое позволяет пользователям общаться с «живым» ИИ.
Продукт совмещает в себе технологию потоковой передачи текста в видео D-ID с чат-ботом ChatGPT от OpenAI, чтобы сделать общение с ИИ более «живым».
Приложение находится в бета тесте, бесплатно, поддерживает только англ язык.

• Попробовать

🔥1

192 views12:41

Нейронавт | Нейросети в творчестве

О скором релизе GPT-4

Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:

1. Выйдет в феврале (почти)
2. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
3. Sparse, скорее всего MoE (сам не шарю)
4. Такой же скачок в качестве как и GPT-2 к GPT-3
5. Мультимодальность: текст, картинки, аудио
6. На выходе тоже мультимодальность
7. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
8. Длина контекста: 32 тысячи токенов

#nlp #llm

Developer

GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany

The release of GPT-4 is imminent, as Microsoft Germany CTO Andreas Braun mentioned at an AI kickoff event on 9 March 2023.

223 views19:12

Нейронавт | Нейросети в творчестве

StableDiffusion теперь можно запустить в браузере на GPU. Никаких танцев с гитхабом и установкой локального сервера (привет автоматик). Хотя, подозреваю, все равно какие-то танцы будут.

Но вроде пока только для Мака.

195 views19:21

Нейронавт | Нейросети в творчестве

Forwarded from НейроПикчи

Анонсировали 5 версию Midjourney, обещают более высокую детализацию и больше стилей, а как выйдет узнаем уже совсем скоро

Платные подписчики могут оценить результаты

И сейчас в дискорде MJ в канале rating-party люди скидывают, что интересного им попалось

НейроПикчи / Новости

🔥2

185 views19:24

Нейронавт | Нейросети в творчестве

Премьер министр Румынии назначил чат-бота ION своим почетным советником.

Заместитель будет анализировать трафик в соцсетях на предмет выявления наиболее острых тем, которые обсуждают граждане страны, в частности, социальной и политической направленности. Нейросеть будет собирать сведения о настроениях в обществе, проблемах, запросах, потребностях и претензиях.

🔥1

257 views05:26

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Video-P2P
Нейросеть для редактирования видео по тексту от Adobe и Гонконгского китайского Университета. Информации мало.
Код обещают позже с намеками на публичный доступ к модели.

[UPDATE]
Код
Демо

#text2video #video2video #videop2p

👍1

211 viewsedited 06:17

Нейронавт | Нейросети в творчестве

2:19

Media is too big

VIEW IN TELEGRAM

ODISE: Open-vocabulary DIffusion-based panoptic SEgmentation

Сегментатор изображений от NVIDIA и Университета Калифорнии.
Что-то пишут про объединение дискриминаторных и диффузионных генераторов изображений по тексту для неограниченной сегментации. Обычно сегментаторы знают ограниченное количество объектов которые они могут выделить масками на изображении. Судя по всему, ODISE сегментирует все что угодно что попадалось в обучающем датасете генераторов tex2image.

Это похоже на следующий шаг к точной генерации text2image, ведь обычно их обучают на картинках с текстовым описанием, но без сегментных масок. А тут вот скрестили.

Код обещают позже

Зато уже можно потыркать демо

#segmentation #text2image

238 viewsedited 06:39

Нейронавт | Нейросети в творчестве

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

GigaGAN: Scaling up GANs for Text-to-Image Synthesis

GAN'ы возвращаются.
GigaGAN генерирует картинку 512 x 512 за 0.13 секунды, превосходит Stable Diffusion v1.5, DALL·E 2, и Parti-750M по FID (сам не знаю что это). Под капотом миллиард параметров, и работает все это на порядки быстрее авторегрессионных и диффузионных моделей. Ну и конечно, бонусом все прелести непрерывного латентного пространства - красивая анимация без этих всех кипящих фликеров.

А еще волшебный апскейлер!
Смешивание текстовых промптов
Замена грубого стиля на детальный

Кода нет 😢

#gan #text2image #image2image #upscale

295 views06:57

Нейронавт | Нейросети в творчестве

0:28

Media is too big

VIEW IN TELEGRAM

VideoLoop3D: 3D Video Loops from Asynchronous Input

Генератор зацикленного видео с новых ракурсов.
На вход нужно несколько видео

Код
Демка (покрутите мышкой)

#video2video #videoto3D

237 views07:05

Нейронавт | Нейросети в творчестве

0:01

This media is not supported in your browser

VIEW IN TELEGRAM

0:01

This media is not supported in your browser

VIEW IN TELEGRAM

PAC-NeRF

К nerf'ам прикрутили физику

Код

#nerf #simulation

225 views07:08

Нейронавт | Нейросети в творчестве

Forwarded from Сиолошная

This media is not supported in your browser

VIEW IN TELEGRAM

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.

Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:
1) отправки и получения не только текстовых сообщений, но и изображений
2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!
3) предоставление обратной связи и запрос исправлений.

Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).

Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).

Самый понятный юзкейс - это заменить дизайнера на правках от заказчика 🙂, хех, когда говорят "ну давайте поиграем со шрифтами и цветами" или "поменяем объект А на Б?"

GitHub проекта: https://github.com/microsoft/visual-chatgpt

Please open Telegram to view this post

VIEW IN TELEGRAM

167 views07:22

About

Blog

Apps

Platform