NEW BOT Телеграм, страница

Eleven Music
Что-то все как с цепи сорвались с релизами. Август на дворе, время отпусков, а все строчат релиз за релизом.
Слухи про музику от 11labs ходили уже давно. А сейчас они раскатали это на всех.
https://elevenlabs.io/app/music

Понятно, что там перечисленые все мыслимые языки и жанры. Но меня зацепило вот это:

"Редактируйте звук и текст отдельных фрагментов или всей песни."

Этакий интпайнтинг.

Господа Кондаков и SVT - ваш выход с приговорами.

А кому захочется опенсорса, гляньте сюда, забавная таблица сравнений генераторов.

@cgevent

🔥22👍11❤2👎1

7.97K viewsSergey Tsyptsyn ️️, 21:17

Метаверсище и ИИще

Вы меня простите, конечно, но Qwen-Image, о котором так всприподвзвизгивает телеграмчик и твиттор - это прям плохо.

До Флюкса, как до Reve.

Я попробовал на Fal и на официальном демо - везде плохо.

@cgevent

😁48👎6😱6👍5🔥3❤1

8.03K viewsSergey Tsyptsyn ️️, 21:25

Метаверсище и ИИще

Ну и чтобы совсем не спать, то Антропичек сегодня (вчера?) бахнул Клод Опус 4.1:
https://www.anthropic.com/news/claude-opus-4-1

Anthropic

Claude Opus 4.1

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

🔥31👍4😁3

7.99K viewsSergey Tsyptsyn ️️, 21:31

Метаверсище и ИИще

0:41

This media is not supported in your browser

VIEW IN TELEGRAM

Нейропрожарка

Автор: Режиссер-оператор Антон Зимин

https://vimeo.com/1101861537
https://www.instagram.com/dp_director_azimin
тг @antonzim

🛠 Эксперимент: создание рекламного ролика с помощью нейросетей
⏱️ Срок: примерно 1,5 месяца (с перерывами).
💡 Как всё началось: Однажды я увидел рекламный ролик полностью во сне, от начала до конца. Тема ИИ-видеогенераторов была на подъёме, поэтому я решил проверить, как нейронки справятся с чётко прописанным сценарием.
🎬 Рандомный ролик VS ролик по сценарию: Большинство красивых роликов, которые вы видите в сети — можно назвать результатом случайных попыток. Люди просто экспериментируют и выкладывают лучшее. Именно поэтому все ролики однотипные. Люди находят то, что модели удается делать лучше всего и генерят вариации на эти темы. Совсем другое дело, если у вас есть конкретный сценарий с прописанными движениями и эмоциями. В этом случае работа с ИИ сильно усложняется и становится намного дороже. У меня был именно такой случай: полное управление движением камеры, персонажами и элементами.
🔎 Что я пробовал:
• Kling 2
• Runway
• Sora
Несмотря на яркие проморолики и впечатляющие тесты на YouTube, ни один из генераторов не смог выдать результат, соответствующий моему сценарию. Персонажей можно было анимировать по промптам, но камера двигалась вяло и чаще всего не туда.
🤔 Теория заговора? У меня даже сложилось ощущение, что платные генераторы намеренно дают хуже результат, чтобы заставить тебя генерить больше за плаьные кредиты. Ведь на бесплатных кредитах почему-то получалось лучше! Возможно, это просто моя слабость к теориям цифрового заговора...
✅ Первый успех: Только в Higgsfield получилось сделать первый кадр, но и его пришлось разбить на две генерации. Я пытался использовать Wan с Lora для движений камеры, но снова не получилось нужного результата.
🚀 Wan Vace 14B — решение найдено: Вышла модель Wan Vace 14B, и я решил сделать весь ролик с её помощью. Для тех, кто не знает: это модель, которая позволяет генерировать видео с контролем по множеству параметров. Берёшь референсное видео и референсный кадр (с освещением, персонажем и т.д.), пишешь промпт — и получаешь микс. Если сделать всё правильно, то референсный кадр «оживает» и двигается примерно на 90% как в референсном видео. Можно варьировать степень схожести и другие параметры.
🖥 Референсные видео: Все референсы я делал в Unreal Engine. Без особой детализации в UE можно сделать черновую анимацию всего ролика буквально за пару-тройку дней. Плюс Wan Vace в том, что сложная проработка сцен не нужна — для некоторых сцен хватает даже простых контуров.
📌 Итог: Оставшуюся часть ролика я доделал примерно за месяц. Можно было быстрее, но большую часть времени я потратил на изучение нюансов работы модели.
🚧 Ограничения Wan Vace:
• Не подходят слишком динамичные сцены (не успевает считать) движение.
• Плохо работает с травой и листвой
• Есть ограничение по длине сцены - приерно 120 кадров.
• Требовательна к ресурсам: 120 кадров генерируются примерно 1 час 10 минут на Blackwell RTX Pro 6000 и около 2-ч часов на A100, при этом нужно около 70 Гб видеопамяти
• Максималное разрешение 720р (которое потом, конечно апскейлится в разумных пределах и доводится до ума с помощью motion blur и других инструментов)
📝 Технические детали:
• Сервис аренды GPU: Runpod (довольно дешевый, но со своими нюансами)
• Интерфейс: ComfyUI
• Промпты: ChatGPT + много-много правок
• Картинки: «условно бесплатно» через ChatGPT, Sora и бесплатно в Piclumen. С подпиской Midjourney получилось бы намного быстрее
• Текст диктора: написал сам
• Голос: Elevenlabs
• Звуки: Freesound
• Музыка: Suno
• Монтаж и цветкор: Davinci Resolve
• Upscale финального кадра: Topaz
• Первый кадр: Higgsfield
• Тоннель из шипов и кусок финального кадра под пэкшотом: Kling 2.1 (бесплатные кредиты)

Потрачено примерно 20 тыс рублей.

Итог - я прошел через весь производственный процесс ИИ рекламного ролика с условными комментариями и доработками.

@cgevent

2🔥184👍56❤17👎5

8.78K viewsSergey Tsyptsyn ️️, 07:45

Метаверсище и ИИще

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

В десктопной версии Gemini теперь можно делать целые книжки с картинками.
Гемини сама напишет историю, может взять ваши картинки на вход для стиля, и сделает не просто книжку, но и аудио версию к ней.
Мне это напоминает диафильмы на стероидах.

Достаточно написать в промпте "create storybook about .... как срать не снимая свитер"

Он сделает книжку, ее можно смотреть в Гемини, там же слушать или шарить ссылку.

Экспорта в пдф или MP4 не нашел.

Поглядите пример:
https://gemini.google.com/share/52a81c4683ea

Работает только в браузерной версии Гемини. В мобильном приложении пока нет.

Пришёл вечером домой, давайте дети сказку послушаем. Про свитер.
Поставил аудио версию, вывел картинки на телевизор, и ну спать (или новости писать в телегу)

@cgevent

😁39❤24😱8👍6🔥5👎1

32.3K viewsSergey Tsyptsyn ️️, 15:11

Метаверсище и ИИще

Forwarded from Мишин Лернинг

Утекли логотипы 3х новых моделей от OpenAI: GPT-5, GPT-5-mini, GPT-5-nano

👎36😁17👍7😱4🔥3

7.09K viewsSergey Tsyptsyn ️️, 17:52

Метаверсище и ИИще

А саму GPT-5 покажут завтра, в четверг, в восемь вечера по Москве.

Если это не шутка, конечно.

@cgevent

❤14👍6👎1

7.47K viewsSergey Tsyptsyn ️️, 18:01

Метаверсище и ИИще

Forwarded from Psy Eyes