NEW BOT Телеграм, страница

Gemini 1.5

Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)

- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных

Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона. Думаю, схитрили, там разрешение видео небольшое

#MoE #multimodal #VLM #assistant

👍5🔥3

1.4K views13:08

Нейронавт | Нейросети в творчестве

Automatic1111 SD Webui Notebooks for Paperspace and Runpod

Не колабом единым. Вот вам блокноты для запуска SD Webui на Paperspace и Runpod

Гитхаб
Инструкция
Реддит

#tools #sd #text2image

🔥3

1.35K views07:00

Нейронавт | Нейросети в творчестве

0:49

This media is not supported in your browser

VIEW IN TELEGRAM

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Почему про это никто не пишет?
Лет 5-6 назад была у гугла подобная штука,но там можно было менять между собой 4-5 инструментов. А тут свободное редактирование музыки текстовыми указаниями. Можно менять инструменты, жанр, настроение.

Одна беда - негде попробовать.

#music2music #musicediting

❤6

1.34K views07:22

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting

Генерация комплексных 3D сцен на гауссианах

Код ждем

#textto3d #text2scene

👍5

1.37K views07:42

Нейронавт | Нейросети в творчестве

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

Magic-Me: Identity-Specific Video Customized Diffusion

Генерация видео с персонализацией.
Угадаете от кого? от ByteDance конечно

Код
Колаб
Демо

#text2video #personalization

👍1😁1

1.53K viewsedited 08:22

Нейронавт | Нейросети в творчестве

Forwarded from Kali Novskaya (Tatiana Shavrina)

This media is not supported in your browser

VIEW IN TELEGRAM

🌸Sora: что нам рассказали 🌸
Добрались руки прочитать внимательно technical report Sora.

🟣TLDR;
— никаких деталей про данные, но они "internet scale": как минимум упоминаются видеоигры
— почти ничего детального про архитектуру, но много ссылок на статьи по диффузионным трансформерам и основные идеи объяснены ненаучным языком
— очень большое внимание инжинирингу данных, аугментации, составлению синтентических датасетов, инфинитлупов и нарезок
— масштабирование компьюта все еще вытаскивает качество колоссально

С помощью diffusion transformer'а Sora можно
— генерировать видео по тексту (промпту)
— анимировать картинку с промптом
— соединить два видео (inpainting для видео по сути)

🟣Основные моменты
— Заигрывание с emergent capabilities (опять): за счет масштабирования компьюта и эффективного представления данных в виде токенов и патчей удалось выучить
1) консистентность 3D представления сцен, даже во время движения камеры
2) консистентность объектов в видео на протяжении длительного времени
3) взаимодейтсвие объектов друг с другом.
— Промпты пишутся за вас: затравки, как и в Dalle 3, дописываются и проходят улучшайзинг за вас, то есть, если вы запросите "белый котенок", на самом деле на вход пойдет "белый котенок sitting inthe sunlight, digital art, highly detailed, 8k" — что улучшает качество большинства генераций, но ухудшает контроль пользователя над ней.
— Закрытость науки: Статью даже не запарились делать, просто сделали блогпост со сносками на статьи. Могли бы и его не делать уже, в принципе. Видимо, реакция на релиз Matryoshka embeddings подогрела.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3🔥2

1.44K views12:35

Нейронавт | Нейросети в творчестве

Йе бейби! 🔥

🔥

Вы когда-нибудь пересаживались с 1060 на 4060 16GB?

#оффтоп

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥49👍7😎2❤1⚡1

1.43K views12:08

Нейронавт | Нейросети в творчестве

А теперь совсем #оффтоп

Вы много в чем разбираетесь, а я об этом раньше не думал как-то.

Накидайте рекомендаций по электробритве для сурового мужского лица, а то моя сдохла

#neuronaut_art

😁6👎3❤1👍1🔥1

1.41K views16:51

Нейронавт | Нейросети в творчестве

0:51

This media is not supported in your browser

VIEW IN TELEGRAM

GLIGEN GUI

Интерфейс GLIGEN на базе ComfyUI и SD 1.5

Гитхаб

#tools #text2image

🤯13🔥7

1.66K viewsedited 06:09

Нейронавт | Нейросети в творчестве

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

Адаптер для использования плагинов (Lora, Controlnet) от SD1.5 с апгрейженными моделями (SD 2.1, SDXL)

Код
Туториал (Реддит)

#tools #sd

👍5🔥3

2.49K viewsedited 07:11

Нейронавт | Нейросети в творчестве

0:58

This media is not supported in your browser

VIEW IN TELEGRAM

Озвучивание видео по текстовому описанию от ElevenLabs

Записаться в вейтлист

#text2sound

🔥3

1.57K views07:23

Нейронавт | Нейросети в творчестве

1:34

This media is not supported in your browser

VIEW IN TELEGRAM

GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering

Лучше чем гауссианы!
По объему модели, скорости и точности.
Обобщенное экспоненциальное разбрызгивание - переведите это кто-нибудь правильно но русский.

Дело в том, что гауссианы плохо справляются с высокочастотными деталями.

GES (Generalized Exponential Splatting) это новое представление объемных сцен на основе обобщенной экспоненциальной функции (GEF)

GEF превосходит гауссианы в отображении резких краев и сокращает необходимость в обширных операциях разбиения.

Ждем в nerfsudio, Luma

Код
Полное скучное видео (15 минут)

#novelview #rendering #news #GES

🔥5

1.77K views10:53

Нейронавт | Нейросети в творчестве

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

MagicDance: Realistic Human DanceVideo Generation with Motions & Facial Expressions Transfer

Еще один аниматор человеков, с фокусом на тикток-танцах и переносом мимики.
С заявкой на реалистичность. Но или меня глаза обманывают или это выглядит как стопмоушен

Код
Колаб

#image2video #video2motion #video2pose

🔥1

1.55K views12:38

Нейронавт | Нейросети в творчестве

1:39

This media is not supported in your browser

VIEW IN TELEGRAM

Аниматор Owen Fern опубликовал разбор видео, сгенерированного Sora

Полное видео (25 минут)

Утащил с CG дневничка

#reveiw

👍14🤡6

1.64K views20:42

Нейронавт | Нейросети в творчестве

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

Обновился генератор 3D объектов Rodin Gen-1
На видео сравнение с предыдущей версией. Авторы претендуют ни много ни мало на роль Sora в 3D. Уже можно

записаться в вейтлист

#tetxtto3D #text2scene #realtime

🔥12

2.01K views07:15

About

Blog

Apps

Platform