Метаверсище и ИИще – Telegram
Метаверсище и ИИще
46.8K subscribers
5.93K photos
4.35K videos
45 files
6.82K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Ну и вот вам иллюстрация, что этот лайфхак не работает во многих случаях. Текстовый энкодер уводит в другой домен.

Тут вот так (Про 1.1 в Глиф, Seed 10, 9:16, 35 steps):

picture of a chineese character
picture of a chineese character DSC_0123.JPG
(вторая картинка)

@cgevent
😁13👍6👎21🔥1
Тут можно потихоньку наливать за постпродакшены в рекламе и даже за модизов(понемногу).

Иллюстрация того, что зумеры НЕ изобрели Elastic Reality и что это не морфинг картинок.
А хороший такой 3Д-морфинг (со светом и тенями!).

И это одна кнопка! И две картинки - начальный и финальный кадры в Luma Dream Machine.

Ну, за моделинг, анимацию, текстуринг и рендер, не чокаясь.

@cgevent
👍53🔥19😁86👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Ну ок, ЕЩЕ один видео-генератор!

Теперь от Метачки. И он выглядит очень крепко.

Movie Gen: A Cast of Media Foundation Models

Читаем и смотрим тут:
https://ai.meta.com/research/movie-gen/

30B модель, 16-секунд видео в 1080p и 16FPS

Пока только текст2видео.

@cgevent
2🔥43👍134👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Марк Цукерберг выложил у себя в инсте сгенеренный с помощью Movie-Gen видос и подвердил, что Movie-Gen заедет в инсту в следующем году.

"Каждый день — это день ног с новой моделью MovieGen AI Meta, которая может создавать и редактировать видео. В следующем году в Инстаграм 💪"

И тут, конечно, возникает вопрос: инста, которая как бы замыслена как "sharing life", ну то есть выставление напоказ собственной жизни (реальной или придуманной), теперь будет заполнена генерациями из жизни ИИ?

Да, понятно, что будут отметки @made by AI@

Но, во-первых, кто на них смотрит, думскролля ленту.
А во-вторых, сам замысел инсты, выросшей из шаринга личных фотачек, причудливо меняется в просто контент агрегатор.

Я вижу частичный ответ в следующем посте.

@cgevent
👎23👍18🔥8😱72
В Movie-Gen нет напрямую режима image2video, но есть фишечка типа "вот мое фото, сделай видео с участием моего лица".

Дальше Movie-Gen генерит видос и пересаживает ваше лицо на это видео.

Получается как бы дипфейк в обобщенном смысле: видео - это как бы фэйк, и вы занимаетесь разными глупостями на этом видео.

Тут масса вопросов: какие будут требования к входному изображению?
Должно ли это быть именно ваше лицо (как в Хейген)?
Может ли это быть лицо Анджелины Джоли (думаю нет, как в Хедре)?
Может ли это быть лицо вашей бывшей\бывшего?
Можно ли использовать генерации из Флюкс или Midjourney?

Ну то есть, а что тут с прайвеси?

@cgevent
🔥25👍133
Ну и кстати, Movie-Gen делает видосы 768 х 768 px , а потом апскейлит их с помощью Spatial Upsampler до Full HD 1080p.

В примере с привидением, конечно, поражает отражение в зеркале. Отражение обезьяны в воде, почему-то, удивляет уже не так сильно, ибо глаз привык к такому у других генераторов.

Метачка, а шо с весами?

Думаю, что ничего. Равно как и с весами для text-to-image.

@cgevent
🔥449👍6
Media is too big
VIEW IN TELEGRAM
Опять принес немного нетривиальной визуализации.

Точнее анимации. Мне нравится, что в абстрактной форме чотко угадывается движение персонажа. Этакий метагротеск. Ну или полигональное шаржирование, доведенное до предела.

Опять же, загляните к автору, там очень много интересных визуализаций.

Кстати, интересно скормить это видео в Рунвей video2video. Ну или во Флюкс, и поглядеть, на фантазии по такому скетчу.

@cgevent
🔥83👍125
Лицевой нейрориг.

Я уже постил все эти имплементации LivePortrait, где слайдерами можно управлять выражением лица и пр.

Вот еще одна ловкая версия, где просто таскаешь за определенные области лица и получаешь этакий нейрометахьюман.

Я попробовал вот тут:
https://huggingface.co/spaces/jbilcke-hf/FacePoke
работает медленно и лучше включить галку Show face landmarks on hover, чтобы стало понятно, что происходит, а потом таскать мышкой.

Но как иллюстрация идеи - отлично.
Вот тут есть код:
https://github.com/jbilcke-hf/FacePoke

@cgevent
👍274🔥4👎3😁2
Media is too big
VIEW IN TELEGRAM
Рубрика крутые подписчики.

Илья Рутковский, которого я знаю еще про прошлой жизни (Cg Event и все такое) прислал мне интересные работы.
Они занимаются рекламой и довольно активно юзают нейросетки.
Но этот кейс довольно забавный, взяли свою взрослую рекламу, прогнали через Runway video2video и получили версию рекламы "0+".
Ну и получается, что в будущем приходит заказчик, а вы ему:
вот версия 18+
вот версия для родителей двухлеток
вот версия для подростков
вот версия для офисных служаших

-А можно версию для домохозяек?
-А пажалста! Падаждите 10 минут...


Исходник рекламы, full quality и прочие брейкдауны можно посмотреть тут.

@cgevent
41🔥33👍17👎11😁2
Начнем утро с веселых, но полезных картинок.

Смотрите, какие любимые соцсеткидля зумеров? Статистика для "взрослых" американцев в возрасте от 18 до 29 лет, которые использовали вышеуказанные платформы.

И мы такие, сидящие в телеге: ээ, ахде Дуров?

Вестимо, хде...

Короче, если вы пилите стартап или сервис и целите не в европейскую аудиторию, где скоро зарегулируют не только ИИ, но и, похоже, постинг фотографий (с метачкиных очков точно), то имейте в виду эти цифры.

YouTube 93%
Instagram 78%
Facebook 67%
Snapchat 65%
TikTok 62%
Pinterest 45%
Reddit 44%
Twitter 42%
LinkedIn 32%
WhatsApp 32%
BeReal 12%

Скрал на вижуал капиталист.

P.S. И кто такой БиРиал?
@cgevent
🔥28👍11👎51
Тут вот телеграмчик приподвзрывается новостью о том, что некий мегапромпт, разгоняет Sonnet 3.5 до уровня GPT-o1.

Ну и не только Sonnet
https://x.com/_philschmid/status/1842846050320544016

Там есть пара моментов: "разгоняет" только на определенном наборе тестов, причем похоже от самого автора мегапромпта.
Во-вторых, его прогнали на MMLU и нет, не разгоняет. См. картинку.

Ну и если вы упарываетесь в такие джейлбрейки, то есть целая база на, пардон, 15 тыщ промптов.
https://github.com/verazuo/jailbreak_llms

Но я вам принес другую (надеюсь полезную) вещь, даже несколько:

Системный промпт для chatGPT-4o with Canvas
Также:
For code conversion
For code review
For Bug fixes
For Logging


Все это добро тут:
https://x.com/jasonkneen/status/1841941411052106209
https://x.com/elder_plinius/status/1841955474092261797

Уже в базе промптов отсюда:
https://github.com/elder-plinius/L1B3RT45

@cgevent
👍20🔥76👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел очень крутую работу от Nvidia.

Все эти генераторы 3Д, как правило, используют для обучения датасет Objaverse, в котором очень много шлака и превалируют 3Д-сканы и фотограмметрия с ужасными, плотными, хаотическими сетками.
Генерация с помощью score distillation sampling (SDS) и пр. начисто теряет любые данные о связи вертексов в исходных данных, а использование marching cubes порождает "обмылки" и вот эту вот всю ацкую топологию.

Мне, кстати, уже давно приходила в голову идея обучения 3Д-генератора на текстовом описании мешей, с сохранением и использованием информации о топологии.

Тут я выпендрюсь и процитирую статью:
Недавно в нескольких подходах были предприняты попытки токенизировать сетки в одномерные последовательности и использовать авторегрессивные модели для прямой генерации сеток. В частности, MeshGPT предлагает эмпирически сортировать треугольные грани и применять вариационный автокодер с векторной квантификацией (VQ-VAE) для токенизации сетки. MeshXL напрямую склеивает координаты вершин и не использует никакого сжатия, кроме дискретизации вершин. Однако такие подходы часто испытывают трудности с обобщением за пределами области обучения при обучении на изображениях одного вида.

Нвидия сделали авторегрессивный автокодер (ArAE), который сжимает треугольные сетки переменной длины в латентные коды фиксированной длины. Это латентное пространство может быть использовано для обучения моделей диффузии, обусловленных другими модальностями. Это позволяет EdgeRunner генерировать разнообразные, высококачественные художественные сетки, содержащие до 4 000 граней и вершин - в результате получаются последовательности вдвое длиннее и в четыре раза выше по разрешению по сравнению с предыдущими методами.

Но самое главное, поглядите, как происходит процесс детокенизации, то есть перевода 1Д-токенов(эмбедингов) обратно в 3Д пространство! Это ж латентный моделинг!

Сетка как бы моделит форму не плевком из облака точек, а выстраивая топологию.

Выглядит отлично.

Очень круто сделан сайт проекта, я скачал 3Д-модельки, покрутил, не врут, топология как на сайте.
Поглядите там, как идет процесс нейромоделинга.

Ну, за моделлеров, наконец-то.

Хотя... кода нет. Отставить чокаться. И возможно, не будет, ибо это явно просится в OmniVerse от Nvidia, который явно не открытый проект.
https://research.nvidia.com/labs/dir/edgerunner/

@cgevent
👍38🔥133
This media is not supported in your browser
VIEW IN TELEGRAM
Так, это уже слишком хорошо, чтобы быть поводом для шуток.

Это уже два миллиметра до:
рекламы провинциального масштаба
синематика инди игрушки
марвеловская или комиксовидная жвачка от некрупной студии
форсаж - 11 и вИИн дИИзель
креатив на игровых сторах
перебивки на тв



Под красным капотом:
Flux 1.1
Luma Labs' Dream Machine
CapCut - монтаж и пост
Udio - ИИ-музика

И все.

Хотя нет, не все, вот промпты:
Флюкс: Close-up/high angle/low angle], [front view/rear view], photo of a red and black [interior/exterior] of a futuristic car, led lights, high contrasts dynamic shadows, organic, night, highway, shallow depth of field
Luma Labs: пустой промпт на все входные картинки
Udio: energetic, garage rock, revival dance-rock about wanting a futuristic car

Забрал отсюда, люто сделано

@cgevent
5🔥71👎19👍103😁2