Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.46K photos
3.73K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Sora

Забудьте все чтобы видели до сих пор по части генерации видео.
OpenAI показали как надо. Еще видны косяки, но это на голову выше всего что было до сих пор

Sora понимает не только текстовый промт, но и то как вещи ведут себя физическом мире.

Sora сейчас в закрытом доступе для ограниченного круга тестеров, художников и журналистов.

Можете попробовать написать Сэму Альтману в твиттер, он генерит видео по запросам

#text2video
14🔥11👀5👎1
Сэм Альтман
мы хотели бы показать вам, на что способен Сора, пожалуйста, присылайте описания видео, которые вы хотели бы увидеть, и мы начнем их делать!

DogeDesigner
"Парень, превращающий некоммерческую компанию с открытым исходным кодом в прибыльную компанию с закрытым исходным кодом"

твиттер

#humor
😁40🌚4👍1
Media is too big
VIEW IN TELEGRAM
HuggingFace выкатили ноутбуки в gradio

Не колабом единым

- Используйте любую комбинацию текстовых, графических или звуковых моделей в одном пространстве и даже объединяйте модели в цепочку.

- Экспериментируйте с моделями, используя встроенный пользовательский интерфейс ноутбука, который представляет собой знакомый, интуитивно понятный интерфейс для мультимодального взаимодействия.

- Делитесь результатами работы с пространством с друзьями по URL-адресу, которым можно поделиться.

- Загрузите конфигурацию space (подсказки и настройки модели) в виде файла aiconfig JSON и используйте его в своем приложении через AIConfig SDK.

#tools #news
👍7
Stable Cascade

Stability AI выпустили новую модель генерации изображений на основе архитектуры Würstchen
Быстрее и лучше SDXL.
Поддержка Лора, контролнет

Успели уже потестить пока я был в анабиозе? Хвастайтесь в чате

Гитхаб
Колаб
Однокликовый инсталлятор
Расширение для A1111/Forge
Веса

#text2image
👍5🤷‍♂2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Теперь немного диванных мыслей. И ссылка на новую статью, которая вышла в процессе написания поста.

Если у кого-то есть надежда типа "а мы вот умеем из картинок видео делать, а не только из текста", то нет. Надежды. GPT-V пережует любую картинку на входе, превратит ее промпт, удобрит с помощью GPT-4, сам найдет динамику и предложит вам десяток вариантов операторской работы с этой картинкой (вышла статья - подтвердили эту фичу).

Интересно будет посмотреть на варианты контроля движения кроме текстовых промптов. Судя по Далле3 OpenAI не сильно упираются в продуктовые фичи и всякие контролнеты, так что моушен брашей можно и не дождаться.

Цензура наверняка будет лютой. На видео примерах - никаких людей. Так что у части стартапов затеплилась надежда. Говорящие головы будут жить какое-то время. А дух дипфейка будет жутко пугать OpenAI.

Судя по примерам, в обучении использовалось много синтетики. Типа видео из игровых движков. Поглядите на пролеты камеры, особенно в городских локациях. Это касается некоторых примеров. На других этого нет.

Одна минута of high definition video - это как вообще?. Там где любые видео-генераторы разрывает в клочья после 8 секунд, тут ОДНА МИНУТА.

А еще уже вышла статья. И там примеры за гранью нравственности.

Оно умеет продолжать видео по времени назад и вперед.

"Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя."

Video-to-video editing

В общем оно умеет все и даже картинки в 2048х2048

Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
https://openai.com/research/video-generation-models-as-world-simulators

Надо поспать, или это все уже сон?
👍61
This media is not supported in your browser
VIEW IN TELEGRAM
А знаете что?

Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса

На видео - сгенерированное Sora видео геймплея в майнкрафт

#оффтоп #sora
🔥3🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
HeadStudio: Text to Animatable Head Avatarswith 3D Gaussian Splatting

Говорящие головы с мимикой на гауссианах.
Прибитые гвоздями глаза при активной мимике выглядят устрашающе.

Код ждем

#text2video #talkinghead #humanavatar #gaussian
😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 1.5

Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)

- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных

Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона. Думаю, схитрили, там разрешение видео небольшое

#MoE #multimodal #VLM #assistant
👍5🔥3
Automatic1111 SD Webui Notebooks for Paperspace and Runpod

Не колабом единым. Вот вам блокноты для запуска SD Webui на Paperspace и Runpod

Гитхаб
Инструкция
Реддит

#tools #sd #text2image
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Почему про это никто не пишет?
Лет 5-6 назад была у гугла подобная штука,но там можно было менять между собой 4-5 инструментов. А тут свободное редактирование музыки текстовыми указаниями. Можно менять инструменты, жанр, настроение.

Одна беда - негде попробовать.

#music2music #musicediting
6
This media is not supported in your browser
VIEW IN TELEGRAM
Magic-Me: Identity-Specific Video Customized Diffusion

Генерация видео с персонализацией.
Угадаете от кого? от ByteDance конечно

Код
Колаб
Демо

#text2video #personalization
👍1😁1
Forwarded from Kali Novskaya (Tatiana Shavrina)
This media is not supported in your browser
VIEW IN TELEGRAM
🌸Sora: что нам рассказали 🌸
Добрались руки прочитать внимательно technical report Sora.

🟣TLDR;
— никаких деталей про данные, но они "internet scale": как минимум упоминаются видеоигры
— почти ничего детального про архитектуру, но много ссылок на статьи по диффузионным трансформерам и основные идеи объяснены ненаучным языком
— очень большое внимание инжинирингу данных, аугментации, составлению синтентических датасетов, инфинитлупов и нарезок
— масштабирование компьюта все еще вытаскивает качество колоссально

С помощью diffusion transformer'а Sora можно
— генерировать видео по тексту (промпту)
— анимировать картинку с промптом
— соединить два видео (inpainting для видео по сути)

🟣Основные моменты
— Заигрывание с emergent capabilities (опять): за счет масштабирования компьюта и эффективного представления данных в виде токенов и патчей удалось выучить
1) консистентность 3D представления сцен, даже во время движения камеры
2) консистентность объектов в видео на протяжении длительного времени
3) взаимодейтсвие объектов друг с другом.
— Промпты пишутся за вас: затравки, как и в Dalle 3, дописываются и проходят улучшайзинг за вас, то есть, если вы запросите "белый котенок", на самом деле на вход пойдет "белый котенок sitting inthe sunlight, digital art, highly detailed, 8k" — что улучшает качество большинства генераций, но ухудшает контроль пользователя над ней.
— Закрытость науки: Статью даже не запарились делать, просто сделали блогпост со сносками на статьи. Могли бы и его не делать уже, в принципе. Видимо, реакция на релиз Matryoshka embeddings подогрела.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥2
Йе бейби! 🔥🔥🔥

Вы когда-нибудь пересаживались с 1060 на 4060 16GB?

#оффтоп
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥49👍7😎211
А теперь совсем #оффтоп

Вы много в чем разбираетесь, а я об этом раньше не думал как-то.

Накидайте рекомендаций по электробритве для сурового мужского лица, а то моя сдохла

#neuronaut_art
😁6👎31👍1🔥1