Метаверсище и ИИще – Telegram
Метаверсище и ИИще
46.7K subscribers
5.93K photos
4.34K videos
45 files
6.82K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Кстати, по поводу генерации разных ракурсов с сохранением консистентности (в том числе, может пригодится и для перевода в 3Д).

Смотрите, сначала генерите ОДНУ картинку с тремя ракурсами на ОДНОЙ картинке.
Потом режете эти три ракурса на три картинки и кормите их их в Рунвей как ключевые кадры (у них теперь не только последний и первый, но и промежуточный).

И ну выпивать за Пиксар, не чокаясь!

Prompt: Three frames stacked. the first frame features a front-view of A bald man with a red-beard wearing glasses looking forward. the second frame features a side-view of the exact same man turned left. the third frame features a side-view of the exact same man turned right. Pixar inspired aesthetic. the character is turning

@cgevent
👍41🔥271👎1
Раз уж я начал год с 3Д на нем и закончим.

Я уже писал про zoo.dev еще в июле.
https://news.1rj.ru/str/cgevent/8838

Этакий text-2-CAD, не работающий притом.
https://zoo.dev/machine-learning-api

Там довольно остроумная идея состоит в том, что с помощью ЛЛМ генерится код, из которого, собственно, и состоят CAD-овские файлы.

Но проблемка (а может и решение) состоит в том, что вы должны понимать этот код. Впрочем, он несложный, и уж перекрасить модель вы точно сможете.

Мне в целом очень нравится идея генерировать код 3Д или 2Д файлов (еще со времен Maya Paint Effects), но количество галлюцинаций будет отлично работать для генерации "искусства" и "новизны", но не точных CAD-моделей.

Хватит нам AI Video Composer, который генерить ffmpeg код с дикими галюниками. Прикольно, но неразборчиво...


@cgevent
👍234
Forwarded from эйай ньюз
Убийца Mac Mini от Nvidia – Digits

Вы только гляньте, шустрая коробочка помещается на ладошке Хуанга!

— 128 GB оперативки, причем эта память доступна и для GPU,
— Blackwell GPU GB10 с 1 петафлоп в fp4,
— Проц Arm, 20 ядер.

На такой машинке можно инференсить модели вплоть до 200 млрд параметров. Можно соединить две такие малышки и запускать уже 405B модель.

Обещают выпустить в мае, цена вопроса - $3000.

Хочу себе такую домой! 🥺

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74👍14😁94👎1
Forwarded from эйай ньюз
RTX 5090 за $2000 - Nvidia показала 5000 серию видеокарт

Хуанг с барского плеча закинул в 5090 32 гигабайта видеопамяти с 1.8TB/s пропускной способности. По остальным характеристикам она в 1.5x-3x быстрее чем 4090.

Не забыли и про сегменты подешевле - в RTX 5070 обещают уровень производительности 4090, при этом новые видяхи стоят дешевле 4000 серии.

У новых GPU гора новых фич для геймеров - DLSS 4 теперь работает на основе трансформера, а не CNN, генерация кадров теперь генерит три промежуточных кадра вместо одного. Текстуры и материалы теперь сжимаются при помощи нейронок - и они потребляют вплоть до 3x меньше памяти.

Нужно ждать независимых обзоров, но пока что поколение выглядит очень интересно. Ждём релиза 30 января.

@ai_newz
👍5416👎5🔥4
Сегодня, конечно, день Нвидия.

Они опенсорснули код Cosmos, и это, конечно, космос!

Developer-first world foundation model platform designed to help Physical AI developers build their Physical AI systems better and faster

Долго писать, это опенсорсная World Model.

Выглядит очень круто, го тестировать. Там и video search, и 3Д, и метаверсищще.

Pre-trained Diffusion-based world foundation models for Text2World and Video2World generation where a user can generate visual simulation based on text prompts and video prompts.
Pre-trained Autoregressive-based world foundation models for Video2World generation where a user can generate visual simulation based on video prompts and optional text prompts.
Video tokenizers for tokenizing videos into continuous tokens (latent vectors) and discrete tokens (integers) efficiently and effectively.
Post-training noscripts to post-train the pre-trained world foundation models for various Physical AI setup.
Video curation pipeline for building your own video dataset.

https://github.com/NVIDIA/Cosmos

Ссылки:

https://www.nvidia.com/en-us/ai/cosmos/
https://huggingface.co/nvidia/Cosmos-1.0-Guardrail

@cgevent
33👍17👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Ещё про Нвидия и 3Д.

Совсем забыл написать про ретоп от Nvidia под названием Meshtron.

Это "обтягиватель" пойнтклаудов полигонами с ретопологией.

Выглядит исключительно убойно, обязательно поглядите видосы, это прям хорошо.

Но кода я не нашёл...

Autoregressive mesh generator based on the Hourglass architecture and using sliding window attention; point cloud to mesh; txt2mesh; mesh2mesh
https://developer.nvidia.com/blog/high-fidelity-3d-mesh-generation-at-scale-with-meshtron/

@cgevent
🔥51👍186👎4
This media is not supported in your browser
VIEW IN TELEGRAM
Вы извините, но я снова про Нвидию.

Очень много всего они анонсировали на CES 2025.

RTX Neural Faces: приподносятся как переход через зловещую долину. Но судя по видео, это лютая зловещая долина с плохим липсинком.

Но.

Внимание, это реалтайм.

Причем непростой, а полупроцедурный. На входе - картинка лица (хоть фото, хоть Флюкс/МЖ) и некие 3д анимационные данные.

А дальше лицо косистентно шевелится с разных ракурсов притом.

Для игр, возможно ок, но нам, избалованным аватарами хейгена и хедры это режет глаз, хотя реалтайм впечатляет

А ещё они переизобрели LSS:
Linear-Swept Spheres (LSS) — это новый примитив с ускорением на GPU GeForce RTX 50 Series(???), который уменьшает объем геометрии, необходимой для рендеринга волос, и использует сферы вместо треугольников для более точного соответствия формам волос. LSS позволяет создавать волосы с трассировкой лучей с лучшей производительностью и меньшим объемом памяти.

Ну то есть гауссиановые волосы.

Немного подбешивает то, что они пиарят новое добро, как исключительно RTX 50Х0 ready, хотя ничего не мешает этому работать на 30Х0+.

Там ещё Mega Geometry и ещё много всякой 3д-3бухи, почитайте тут:

https://developer.nvidia.com/blog/nvidia-rtx-neural-rendering-introduces-next-era-of-ai-powered-graphics-innovation/

А я щас быстренько ещё навалю про Нвидию, в контексте того, почему они очень скоро релизнут много интересного в 3д и просто в генеративе.

@cgevent
6🔥23👍10👎73
Getty Images и Shutterstock, объявили о слиянии с целью создания компании с ожидаемой стоимостью 3,7 млрд долларов.

Картинка - для привлечения внимания - она о том, какой бардак в голове у журналистов про ИИ и картинки.

А для меня это новость по касательной про Нвидию.

У неё есть соглашения, коллаборации и даже совместные продукты с обеими компаниями.

Но самое главное: у шаттерстока, который когда-то пожрал TurboSquid, есть огромная база 3Д моделей. Не вот это вот все адищще типа опенсорсного Objaverse, а чистые и правильные геометрии с развёртками.

А количество 3D AI продуктов от Нвидии просто зашкаливает: Meshtron, Edge Runner, Edify, Neuralangelo, Cosmos, ACE.

И у Нвидии есть на чем поучиться в плане (хороших) 3д данных, благодаря сотрудничеству с шаттерстоком.

Так что я жду много новостей от Нвидии не только про железо, но и про софт.

@cgevent
33🔥15👍12👎5
ТрансПиксар.

Название убойное, конечно, со всех точек зрения.

Нет, это не работа пиксара и не пропаганда гендерного перехода, это работа интерна из Адобченко.

Помните LayeredDiffusuion от автора контролНет?

Это примерно то же самое, только для видео.

Взяли всего 484 видео с альфой и научили модель выкусывать фон на такой небольшой выборке.

Пока прикрутили в виде лор для CogVideoX и Mochi. Народ в комментах алкает Хуньяня и LTXV.

Требования к памяти не публикуют. На гитхабе отвечает скрипт, поэтому нет большой надежды на развитие проекта автором, однако есть код для тренировки, поэтому есть надежда на комьюнити. Дело полезное.

Можно генерить не только танцы на камеру, но и спрайты, эффекты и вообще набор пресетов для VFX.

Есть image2video.

Есть код и даже демо, забирайте все ссылки отсюда:
https://github.com/wileewang/TransPixar

@cgevent
👍30🔥65👎1
Меньше, слабее, но лучше и дешевле.

А так можно было?

Один из эффективных способов улучшить способность больших языковых моделей к рассуждениям - это self-improvement. Идея проста: при получении набора данных с вопросами и ответами LLM генерирует как ответ, так и объяснение. Цепочки рассуждений, которые не дают правильного ответа, затем отфильтровываются, и модель файнтюнится на отфильтрованном наборе данных. Это как бы улучшает способность модели к рассуждениям.

Если имеется более сильная модель, она может генерировать высококачественные наборы данных, и к ней можно применить тот же процесс тонкой настройки.

Статья затрагивает интересный вопрос: Что приводит к лучшей производительности - мало данных от большой, мощной модели или больше данных от меньшей, слабой модели? Получение данных из мощной модели требует больших вычислительных затрат (в терминах FLOPs), но качество данных выше. С другой стороны, меньшие модели генерируют больше данных при том же вычислительном бюджете, хотя их качество может быть ниже.

А теперь парадоксальные выводы из работы от Deepmind:

Более слабые и дешевые модели могут быть более эффективными для обучения LLM, чем более сильные и дорогие. Исследование показало, что более слабые модели могут иметь более высокий охват и разнообразие, что ставит под сомнение сложившуюся практику использования более сильных моделей для генерации синтетических данных.

Исследователи тренировали LLM на данных, полученных с помощью более слабых и более сильных моделей в различных условиях, и обнаружили, что модели, настроенные на данных, полученных с помощью более слабых моделей, неизменно превосходят модели, обученные на данных, полученных с помощью более сильных моделей.

Интересно, можно с картинками также?
SD15 как дешёвый источник синтетики?

https://arxiv.org/abs/2408.16737

@cgevent
🔥19👍135
Эпический фейл с лыжной маской.
Производство Apple Vision Pro замораживается.

Apple снизила производство Vision Pro прошлым летом, после того как накопила большой запас, которого, по ее мнению, должно было хватить до конца года. Теперь выясняется, что ни фига не продалось и эппле имеет достаточно единиц на складе, чтобы удовлетворить спрос на устройство в течение оставшегося срока службы до 2025 года.

По данным Марка Гурмана из Bloomberg, Apple продала менее 500 000 единиц Vision Pro с момента запуска. Хотя многие вернули устройство, столкнувшись с головной болью, проблемами со зрением, болью в шее и укачиванием, даже те, кто оставил его, по сообщениям, используют его не так часто, как ожидала Apple, в основном из-за отсутствия привлекательных приложений и игр - читай "киллер фичи".

Расходимся, метаверс от эппле не взлетел.

https://www.techspot.com/news/106170-apple-may-have-ended-production-vision-pro-headset.html

@cgevent
😁71👍22😱64🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Video2Video наоборот.

Жесть конечно. В Лос Анжелесе недавно случились сильные пожары.
Один умелец взял проезд по улицам и "восстановил" его через Google Maps.

Выглядит как отрывок из постапокалиптического фильма, когда уцелевшие разглядывают картинки из прошлого.

Я тут просматриваю второй сезон Silo (снято плохо, имхо, мир скомкали), вот и зацепился глазом за невеселое видео.

Напоминание о том, что world2world не всегда в наших руках и генерациях.

@cgevent
🔥43😱24👍9😁1