Метаверсище и ИИще – Telegram
Метаверсище и ИИще
46.7K subscribers
5.93K photos
4.34K videos
45 files
6.81K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Для тех, кто еще держится в графике, есть вот такая новость и способ заработать.

Эпик сделал свой 3Д-сток, даже не так, Мета Сток. Там всё.

Хорошее название - Fab.

В настоящее время Fab поддерживает форматы игровых движков (ассеты из Unity и Unreal Engine), а также широкий спектр форматов 3D-файлов. В будущем обещают, и вот тут уже любопытно, ассеты для Майнкрафта и Роблокса (прямая конкуренция с экосистемой), Годотные ассеты и всяко-разно.

Если проще - Fab позволяет разработчикам покупать и загружать десятки тысяч игровых активов, 3D-окружения, визуальные эффекты, музыку и звуковые эффекты, модели персонажей, анимацию и многое другое.

Но есть моменты. Эпик пожрал Sketch Fab и ArtStation(не знали?) несколько лет назад.

Так вот, он собирается перенести всю эту годноту в Fab, а Sketch Fab и ArtStation прикрыть в 2025 году.

На реддите полыхает: юзеры пишут петиции и утверждают, что изменения в Sketchfab, включая отмену возможности загрузки бесплатных моделей, являются «фактически эквивалентом сожжения Александрийской библиотеки».

Эпик уже включил обраточку и сделал возможность шарить бесплатные ассеты на Fabe.

Но никто не знает, как Эпик поступит в 2025 году - он явно собирается собрать контент со всех своих четырех площадок в одно Авито, а юзерам это явно не нравится.

А за углом караулят ИИ-боты, чтобы начать заливать треш-ИИ-контент в этот свеженький Fab.
https://www.fab.com/become-a-publisher

@cgevent
👎17😁166👍6😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Text2Avatar

Тут недавно ElevenLabs выкатил text2voice, где вы промптом задаете характеристики голоса, а он генерит голоса, которые вы можете пользовать потом.
Про ElevenLabs и его новую штуку-шутку следующий пост.

А тут HeyGen сегодня ночью бахнул Text2Avatar.

Никаких авторизаций через камеру, никаких проверок входных изображений на селебность.

На входе ваши фантазии текстом, на выходе говорящий аватар, шевелящий лицом притом, с возможностью настройки любого прикида, позы или фона.

@cgevent
👍25🔥143😱1
X-to-Voice: Твиттор2Аватар и Твиттор2Войс

В общем ElevenLabs пошли еще дальше. На входе ваш твиттор, на выходе ваш голос и даже аватар - они просто берут все ваши глупости, которые вы написали в твитторах, суммаризируют и присовывают как промпт в недавно запущенную ими же фичу Text2Voice.

По дороге забирают вашу твитторную аватарку и с помощью Хедры (да, у них коллаб по голосу) генерят еще и говорящее нечто.

Помните я генерил картинки себя на основе истории разговоров с chatGPT.
Теперь тоже самое на основе вашей болтовни в твитторе, а на выходе голос и аватар.

Это, конечно, вирусный проект, призванный продвинуть их свеженькое Voice Designer API, где как раз и идет генерация голоса по тексту.

И он какбытипа опенсорсный. Весь код вот он, но понятно, что вам надо будет вонзать за Voice Designer API и по дороге за Hedra API.

Но маркетинг отличный, я считаю.

Я туда присунул свой пыльный твиттер, где я когда-то шиллил CG EVENT и получил на выходе вот такое чудо.
Понятно, что из плоского перца никакой Хедрой не сделаешь выпуклого аватара с ротом и глазами. Но попытка защитана. С голосе уже точно звучит намерение выпить не чокаясь за жертв прогресса.

Ну и тебе еще и выдают описание твоего голоса.

Голос мужской среднего диапазона, излучающий уверенность и научный энтузиазм. Тон авторитетный, но в то же время доступный, с нотками волнения, что говорит о том, что он обсуждает важные и инновационные вопросы. Темп его речи взвешенный, но иногда переходит в быстрый, что отражает высокую энергию его мыслительного процесса. Он родом с Кипра, но его акцент в основном нейтральный, со слабыми средиземноморскими нотками. Скорее всего, ему около тридцати лет, что придает его голосу зрелый, знающий тембр.

Лесть, а приятно.

Го играть тут:
https://www.xtovoice.com/

Доброкотов, сувай свой твиттор сюда, он у тебя годный.

И пожалуйста, сделайте такое для телеги: telegram2voice - я уже слышу сиплый, спитой голос "ну, за...".

@cgevent
👍12🔥10😁109
This media is not supported in your browser
VIEW IN TELEGRAM
Pyramide Flow недавно обновился.

Это опенсорсный видеогенератор.
Они взяли и перетренировали модель на основе Флюкс (было SD30), назвали это miniflux и сказали, что пофиксили родовые анатомические травмы первой модели на базе SD30.
Я провел с ней в обнимку несколько дней, там очень много есть о чем рассказать, но выходные, вода еще +26, и надо все-таки не смотреть в монитор.
А пока милая девушка из Комфи желает вам хороших выходных.
Качество подтянули, да. И ходит на 20 гигах. Это я еще image2image не тестировал, разбирался с text2image

@cgevent
👍27🔥9😁81
Media is too big
VIEW IN TELEGRAM
К вопросу о том, что такое video guidance scale в image2video в pyramide flow.
И как оно влияет на генерацию.

Кстати, я заметил, что оптимально считать всего на 4-8 шагах video steps

Сделать в Комфи грид из видео = пол-субботы.

@cgevent
3👍23🔥10
Forwarded from Derp Learning
Для mochi запилили редактор mochi comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!

comfyui mochiedit
comfyui mochiwrapper
🔥45👍203😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Похоже, что лента превращается в один сплошной видеогенератор.
У нас небольшая передышка в области, скажем так, североамериканского ИИ (там все прижали уши до завтра, то есть до выборов, и разборок после них) и европейского ИИ (эти перестраховщики просто прижали уши и регулируют регуляции). Зато китайцы и опен-сорс просто не дают поднять головы.

Поэтому вы уж потерпите, на этой неделе на вас будет валиться всякая информация именно по видеогенераторам. Ибо я тут даже завел опенсорсное видео-2-видео и оно, как ни странно криво-косо работает.

А для тех, кто мучает Pyramide Flow через Comfy дам такой лайфхак. В оригинальном коде разрабы считерили и захардкодили в позитивный промпт вот такую добавку ", hyper quality, Ultra HD, 8K"
А в негативный промпт, если он пустой, добавляют "cartoon style, worst quality, low quality, blurry, absolute black, absolute white, low res, extra limbs, extra digits, misplaced objects, mutated anatomy, monochrome, horror"

В Комфи вам надо вручную дописать добавку в позитивный промпт и задать вот такой негативный. У меня качество отросло раз в пять на этих девушках.

Two white women with long, flowing blonde hair walking side by side along a wide, sandy beach on a bright, sunny day. Both are mid-laugh, their expressions full of joy and friendship, as they walk in sync, close together, barefoot on the warm sand. The sunlight casts a golden glow over their hair, which flows slightly in


@cgevent
👍403🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Чтобы не мучить вас кринжоповатыми опенсорсными видеогенераторами вкину вот такую китайскую утечку из Клинга.

Внимание, это чистый текст2image. Никакой картинки на входе, как у "никогда-в-продукте" MovieGen от метачки или дипфейках.

Внимание, это первая Тренировка Лор для Клинг!

На своих (чужих, нужных) лицах.

Подробности ниже

@cgevent
2🔥56👍32👎2
Тренировка Лор для Клинг!

На своих (чужих, нужных) лицах.

Да, в Клинге появляются Лоры - они их зовут "AI Custom model"

Для тренировки своей модели:

Вам потребуется сделать горизонтальный ролик, где вы смотрите в камеру продолжительностью 10-15 секунд, в формате 1080p и размером менее 100 МБ. На заднем плане не должно быть других кожаных, и убедитесь, что это HQ с хорошим освещением.

Ну а потом загрузить в Клинга 10-30 таких (!разнообразных!) роликов. Важно держать длину 10-15 секунд на ролик, качество 1080p и отсутствие людей на заднем плане. Они рекомендуют загружать от 10 до 30 роликов. 20 тоже ок.

Тренинг идет всего 15 минут (это пока все непонаехали). А потом у вас появляется Face Model в text-to-video option.

Пишете промпт: [facemodel] wearing cyberpunk armor and holding a futuristic rifle. Inspecting a dark laboratory. Lantern lights, dramatic atmosphere.

И все, Клингонская Лора в действии!

Поглядите примеры. Этот ж новый нормальный кастинг.

Вместо базы актеров - база Лор. Кем играть сегодня будем? Так, для испанского проката натренируйте Пенелопу Крус, благо материала полно.


@cgevent
🔥6311😱5😁3👍2
Open Source Video2Video - работает локально.

Это удивительно, конечно, наблюдать, как с опозданием в 2-3 месяца фишки, которые мы наблюдали, роняя челюсти, в Runway или Kling начинают появляться в опенсорсных сборках.

Да, они сходу работают кривовато, качество треш по большей части, но оно РАБОТАЕТ. Ну то есть замысел и алгоритмы заводятся на кургузых опенсорсных чекпойнтах и главное отличие в том, что у энтузиастов не было денег, возможностей и компьюта, собрать конские датасеты, перемолоть их в тренировке и задрать качество. Но дайте время.

И когда я вижу, что появляются image2video, video2video, маски для видео, глубина (MoGe) на гитхабе, я стараюсь все попробовать, чтобы убедиться, что это не фейк. И это не фейк, это работает локально. И когда Барак Обама улыбается и кивает тебе на видео в нужном ракурсе, хотя у тебя было только видео девушки и текст "Барак Обама улыбается", то ты понимаешь, video2video работает.

Тут ирония в том, что не было ни одной картинки на входе.
Девушка - это text2video в Pyramida Flow.
Остальное - это video2video в MochiEdit - этакий контролНет для видеогенерации.

Его можно завести в Комфи вот отсюда:
https://github.com/kijai/ComfyUI-MochiEdit
или отсюда:
https://github.com/logtd/ComfyUI-MochiEdit

Обещают поддержку CogVideo и других.

@cgevent
🔥24👍53👎1