Метаверсище и ИИще – Telegram
Метаверсище и ИИще
46.7K subscribers
5.93K photos
4.34K videos
45 files
6.82K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Eleven Music
Что-то все как с цепи сорвались с релизами. Август на дворе, время отпусков, а все строчат релиз за релизом.
Слухи про музику от 11labs ходили уже давно. А сейчас они раскатали это на всех.
https://elevenlabs.io/app/music

Понятно, что там перечисленые все мыслимые языки и жанры. Но меня зацепило вот это:

"Редактируйте звук и текст отдельных фрагментов или всей песни."

Этакий интпайнтинг.

Господа Кондаков и SVT - ваш выход с приговорами.

А кому захочется опенсорса, гляньте сюда, забавная таблица сравнений генераторов.

@cgevent
🔥22👍112👎1
Вы меня простите, конечно, но Qwen-Image, о котором так всприподвзвизгивает телеграмчик и твиттор - это прям плохо.

До Флюкса, как до Reve.

Я попробовал на Fal и на официальном демо - везде плохо.

@cgevent
😁48👎6😱6👍5🔥31
Ну и чтобы совсем не спать, то Антропичек сегодня (вчера?) бахнул Клод Опус 4.1:
https://www.anthropic.com/news/claude-opus-4-1
🔥31👍4😁3
This media is not supported in your browser
VIEW IN TELEGRAM
Нейропрожарка

Автор: Режиссер-оператор Антон Зимин

https://vimeo.com/1101861537
https://www.instagram.com/dp_director_azimin
тг
@antonzim

🛠 Эксперимент: создание рекламного ролика с помощью нейросетей
⏱️ Срок: примерно 1,5 месяца (с перерывами).
💡 Как всё началось: Однажды я увидел рекламный ролик полностью во сне, от начала до конца. Тема ИИ-видеогенераторов была на подъёме, поэтому я решил проверить, как нейронки справятся с чётко прописанным сценарием.
🎬 Рандомный ролик VS ролик по сценарию: Большинство красивых роликов, которые вы видите в сети — можно назвать результатом случайных попыток. Люди просто экспериментируют и выкладывают лучшее. Именно поэтому все ролики однотипные. Люди находят то, что модели удается делать лучше всего и генерят вариации на эти темы. Совсем другое дело, если у вас есть конкретный сценарий с прописанными движениями и эмоциями. В этом случае работа с ИИ сильно усложняется и становится намного дороже. У меня был именно такой случай: полное управление движением камеры, персонажами и элементами.
🔎 Что я пробовал:
• Kling 2
• Runway
• Sora
Несмотря на яркие проморолики и впечатляющие тесты на YouTube, ни один из генераторов не смог выдать результат, соответствующий моему сценарию. Персонажей можно было анимировать по промптам, но камера двигалась вяло и чаще всего не туда.
🤔 Теория заговора? У меня даже сложилось ощущение, что платные генераторы намеренно дают хуже результат, чтобы заставить тебя генерить больше за плаьные кредиты. Ведь на бесплатных кредитах почему-то получалось лучше! Возможно, это просто моя слабость к теориям цифрового заговора...
Первый успех: Только в Higgsfield получилось сделать первый кадр, но и его пришлось разбить на две генерации. Я пытался использовать Wan с Lora для движений камеры, но снова не получилось нужного результата.
🚀 Wan Vace 14B — решение найдено: Вышла модель Wan Vace 14B, и я решил сделать весь ролик с её помощью. Для тех, кто не знает: это модель, которая позволяет генерировать видео с контролем по множеству параметров. Берёшь референсное видео и референсный кадр (с освещением, персонажем и т.д.), пишешь промпт — и получаешь микс. Если сделать всё правильно, то референсный кадр «оживает» и двигается примерно на 90% как в референсном видео. Можно варьировать степень схожести и другие параметры.
🖥 Референсные видео: Все референсы я делал в Unreal Engine. Без особой детализации в UE можно сделать черновую анимацию всего ролика буквально за пару-тройку дней. Плюс Wan Vace в том, что сложная проработка сцен не нужна — для некоторых сцен хватает даже простых контуров.
📌 Итог: Оставшуюся часть ролика я доделал примерно за месяц. Можно было быстрее, но большую часть времени я потратил на изучение нюансов работы модели.
🚧 Ограничения Wan Vace:
• Не подходят слишком динамичные сцены (не успевает считать) движение.
• Плохо работает с травой и листвой
• Есть ограничение по длине сцены - приерно 120 кадров.
• Требовательна к ресурсам: 120 кадров генерируются примерно 1 час 10 минут на Blackwell RTX Pro 6000 и около 2-ч часов на A100, при этом нужно около 70 Гб видеопамяти
• Максималное разрешение 720р (которое потом, конечно апскейлится в разумных пределах и доводится до ума с помощью motion blur и других инструментов)
📝 Технические детали:
• Сервис аренды GPU: Runpod (довольно дешевый, но со своими нюансами)
• Интерфейс: ComfyUI
• Промпты: ChatGPT + много-много правок
• Картинки: «условно бесплатно» через ChatGPT, Sora и бесплатно в Piclumen. С подпиской Midjourney получилось бы намного быстрее
• Текст диктора: написал сам
• Голос: Elevenlabs
• Звуки: Freesound
• Музыка: Suno
• Монтаж и цветкор: Davinci Resolve
• Upscale финального кадра: Topaz
• Первый кадр: Higgsfield
• Тоннель из шипов и кусок финального кадра под пэкшотом: Kling 2.1 (бесплатные кредиты)

Потрачено примерно 20 тыс рублей.

Итог - я прошел через весь производственный процесс ИИ рекламного ролика с условными комментариями и доработками.


@cgevent
2🔥184👍5617👎5
This media is not supported in your browser
VIEW IN TELEGRAM
В десктопной версии Gemini теперь можно делать целые книжки с картинками.
Гемини сама напишет историю, может взять ваши картинки на вход для стиля, и сделает не просто книжку, но и аудио версию к ней.
Мне это напоминает диафильмы на стероидах.

Достаточно написать в промпте "create storybook about .... как срать не снимая свитер"

Он сделает книжку, ее можно смотреть в Гемини, там же слушать или шарить ссылку.

Экспорта в пдф или MP4 не нашел.

Поглядите пример:
https://gemini.google.com/share/52a81c4683ea

Работает только в браузерной версии Гемини. В мобильном приложении пока нет.

Пришёл вечером домой, давайте дети сказку послушаем. Про свитер.
Поставил аудио версию, вывел картинки на телевизор, и ну спать (или новости писать в телегу)

@cgevent
😁3924😱8👍6🔥5👎1
Утекли логотипы 3х новых моделей от OpenAI: GPT-5, GPT-5-mini, GPT-5-nano
👎36😁17👍7😱4🔥3
А саму GPT-5 покажут завтра, в четверг, в восемь вечера по Москве.

Если это не шутка, конечно.

@cgevent
14👍6👎1
Forwarded from Psy Eyes
Runway: выпустили небольшой гайд как пользоваться их новой моделью Aleph для редактирования видео: генерации нового ракурса, инпейнта/аутпейнта, смены освещения, изменения анимации, стайлтрансфера, итд.

Закидываем в интерфейс или Runway-чат видео желательно 1280x720 длиной до 5 сек. Можно обойтись коротким промтом, но чем детальнее он будет, тем проще модели будет понять что именно нужно поменять в кадре и как.

Если нужно, чтобы что-то в кадре осталось неизменными, это стоит указать и схоже по принципу с Flux Kontext. Только в отличие от последнего тут можно попросить ещё и чтобы сохранялось движение камеры, освещение, итд.

Можно вкидывать и визуальные рефы (например, какую одежду надеть) или инструкции в виде скетчей каким действие должно быть в сцене.

Доступ к Aleph раскатан на всех платных подписчиков.

У кого есть подписка дропайте в комменты что у вас получается с ним сотворить. Как далеко от черрипиков и какие подводные камни?

Твит
Сайт
👍2411🔥1