Eleven Music
Что-то все как с цепи сорвались с релизами. Август на дворе, время отпусков, а все строчат релиз за релизом.
Слухи про музику от 11labs ходили уже давно. А сейчас они раскатали это на всех.
https://elevenlabs.io/app/music
Понятно, что там перечисленые все мыслимые языки и жанры. Но меня зацепило вот это:
"Редактируйте звук и текст отдельных фрагментов или всей песни."
Этакий интпайнтинг.
Господа Кондаков и SVT - ваш выход с приговорами.
А кому захочется опенсорса, гляньте сюда, забавная таблица сравнений генераторов.
@cgevent
Что-то все как с цепи сорвались с релизами. Август на дворе, время отпусков, а все строчат релиз за релизом.
Слухи про музику от 11labs ходили уже давно. А сейчас они раскатали это на всех.
https://elevenlabs.io/app/music
Понятно, что там перечисленые все мыслимые языки и жанры. Но меня зацепило вот это:
"Редактируйте звук и текст отдельных фрагментов или всей песни."
Этакий интпайнтинг.
Господа Кондаков и SVT - ваш выход с приговорами.
А кому захочется опенсорса, гляньте сюда, забавная таблица сравнений генераторов.
@cgevent
🔥22👍11❤2👎1
Вы меня простите, конечно, но Qwen-Image, о котором так всприподвзвизгивает телеграмчик и твиттор - это прям плохо.
До Флюкса, как до Reve.
Я попробовал на Fal и на официальном демо - везде плохо.
@cgevent
До Флюкса, как до Reve.
Я попробовал на Fal и на официальном демо - везде плохо.
@cgevent
😁48👎6😱6👍5🔥3❤1
Ну и чтобы совсем не спать, то Антропичек сегодня (вчера?) бахнул Клод Опус 4.1:
https://www.anthropic.com/news/claude-opus-4-1
https://www.anthropic.com/news/claude-opus-4-1
Anthropic
Claude Opus 4.1
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
🔥31👍4😁3
This media is not supported in your browser
VIEW IN TELEGRAM
Нейропрожарка
Автор: Режиссер-оператор Антон Зимин
https://vimeo.com/1101861537
https://www.instagram.com/dp_director_azimin
тг @antonzim
🛠 Эксперимент: создание рекламного ролика с помощью нейросетей
⏱️ Срок: примерно 1,5 месяца (с перерывами).
💡 Как всё началось: Однажды я увидел рекламный ролик полностью во сне, от начала до конца. Тема ИИ-видеогенераторов была на подъёме, поэтому я решил проверить, как нейронки справятся с чётко прописанным сценарием.
🎬 Рандомный ролик VS ролик по сценарию: Большинство красивых роликов, которые вы видите в сети — можно назвать результатом случайных попыток. Люди просто экспериментируют и выкладывают лучшее. Именно поэтому все ролики однотипные. Люди находят то, что модели удается делать лучше всего и генерят вариации на эти темы. Совсем другое дело, если у вас есть конкретный сценарий с прописанными движениями и эмоциями. В этом случае работа с ИИ сильно усложняется и становится намного дороже. У меня был именно такой случай: полное управление движением камеры, персонажами и элементами.
🔎 Что я пробовал:
• Kling 2
• Runway
• Sora
Несмотря на яркие проморолики и впечатляющие тесты на YouTube, ни один из генераторов не смог выдать результат, соответствующий моему сценарию. Персонажей можно было анимировать по промптам, но камера двигалась вяло и чаще всего не туда.
🤔 Теория заговора? У меня даже сложилось ощущение, что платные генераторы намеренно дают хуже результат, чтобы заставить тебя генерить больше за плаьные кредиты. Ведь на бесплатных кредитах почему-то получалось лучше! Возможно, это просто моя слабость к теориям цифрового заговора...
✅ Первый успех: Только в Higgsfield получилось сделать первый кадр, но и его пришлось разбить на две генерации. Я пытался использовать Wan с Lora для движений камеры, но снова не получилось нужного результата.
🚀 Wan Vace 14B — решение найдено: Вышла модель Wan Vace 14B, и я решил сделать весь ролик с её помощью. Для тех, кто не знает: это модель, которая позволяет генерировать видео с контролем по множеству параметров. Берёшь референсное видео и референсный кадр (с освещением, персонажем и т.д.), пишешь промпт — и получаешь микс. Если сделать всё правильно, то референсный кадр «оживает» и двигается примерно на 90% как в референсном видео. Можно варьировать степень схожести и другие параметры.
🖥 Референсные видео: Все референсы я делал в Unreal Engine. Без особой детализации в UE можно сделать черновую анимацию всего ролика буквально за пару-тройку дней. Плюс Wan Vace в том, что сложная проработка сцен не нужна — для некоторых сцен хватает даже простых контуров.
📌 Итог: Оставшуюся часть ролика я доделал примерно за месяц. Можно было быстрее, но большую часть времени я потратил на изучение нюансов работы модели.
🚧 Ограничения Wan Vace:
• Не подходят слишком динамичные сцены (не успевает считать) движение.
• Плохо работает с травой и листвой
• Есть ограничение по длине сцены - приерно 120 кадров.
• Требовательна к ресурсам: 120 кадров генерируются примерно 1 час 10 минут на Blackwell RTX Pro 6000 и около 2-ч часов на A100, при этом нужно около 70 Гб видеопамяти
• Максималное разрешение 720р (которое потом, конечно апскейлится в разумных пределах и доводится до ума с помощью motion blur и других инструментов)
📝 Технические детали:
• Сервис аренды GPU: Runpod (довольно дешевый, но со своими нюансами)
• Интерфейс: ComfyUI
• Промпты: ChatGPT + много-много правок
• Картинки: «условно бесплатно» через ChatGPT, Sora и бесплатно в Piclumen. С подпиской Midjourney получилось бы намного быстрее
• Текст диктора: написал сам
• Голос: Elevenlabs
• Звуки: Freesound
• Музыка: Suno
• Монтаж и цветкор: Davinci Resolve
• Upscale финального кадра: Topaz
• Первый кадр: Higgsfield
• Тоннель из шипов и кусок финального кадра под пэкшотом: Kling 2.1 (бесплатные кредиты)
Потрачено примерно 20 тыс рублей.
Итог - я прошел через весь производственный процесс ИИ рекламного ролика с условными комментариями и доработками.
@cgevent
Автор: Режиссер-оператор Антон Зимин
https://vimeo.com/1101861537
https://www.instagram.com/dp_director_azimin
тг @antonzim
🛠 Эксперимент: создание рекламного ролика с помощью нейросетей
⏱️ Срок: примерно 1,5 месяца (с перерывами).
💡 Как всё началось: Однажды я увидел рекламный ролик полностью во сне, от начала до конца. Тема ИИ-видеогенераторов была на подъёме, поэтому я решил проверить, как нейронки справятся с чётко прописанным сценарием.
🎬 Рандомный ролик VS ролик по сценарию: Большинство красивых роликов, которые вы видите в сети — можно назвать результатом случайных попыток. Люди просто экспериментируют и выкладывают лучшее. Именно поэтому все ролики однотипные. Люди находят то, что модели удается делать лучше всего и генерят вариации на эти темы. Совсем другое дело, если у вас есть конкретный сценарий с прописанными движениями и эмоциями. В этом случае работа с ИИ сильно усложняется и становится намного дороже. У меня был именно такой случай: полное управление движением камеры, персонажами и элементами.
🔎 Что я пробовал:
• Kling 2
• Runway
• Sora
Несмотря на яркие проморолики и впечатляющие тесты на YouTube, ни один из генераторов не смог выдать результат, соответствующий моему сценарию. Персонажей можно было анимировать по промптам, но камера двигалась вяло и чаще всего не туда.
🤔 Теория заговора? У меня даже сложилось ощущение, что платные генераторы намеренно дают хуже результат, чтобы заставить тебя генерить больше за плаьные кредиты. Ведь на бесплатных кредитах почему-то получалось лучше! Возможно, это просто моя слабость к теориям цифрового заговора...
✅ Первый успех: Только в Higgsfield получилось сделать первый кадр, но и его пришлось разбить на две генерации. Я пытался использовать Wan с Lora для движений камеры, но снова не получилось нужного результата.
🚀 Wan Vace 14B — решение найдено: Вышла модель Wan Vace 14B, и я решил сделать весь ролик с её помощью. Для тех, кто не знает: это модель, которая позволяет генерировать видео с контролем по множеству параметров. Берёшь референсное видео и референсный кадр (с освещением, персонажем и т.д.), пишешь промпт — и получаешь микс. Если сделать всё правильно, то референсный кадр «оживает» и двигается примерно на 90% как в референсном видео. Можно варьировать степень схожести и другие параметры.
🖥 Референсные видео: Все референсы я делал в Unreal Engine. Без особой детализации в UE можно сделать черновую анимацию всего ролика буквально за пару-тройку дней. Плюс Wan Vace в том, что сложная проработка сцен не нужна — для некоторых сцен хватает даже простых контуров.
📌 Итог: Оставшуюся часть ролика я доделал примерно за месяц. Можно было быстрее, но большую часть времени я потратил на изучение нюансов работы модели.
🚧 Ограничения Wan Vace:
• Не подходят слишком динамичные сцены (не успевает считать) движение.
• Плохо работает с травой и листвой
• Есть ограничение по длине сцены - приерно 120 кадров.
• Требовательна к ресурсам: 120 кадров генерируются примерно 1 час 10 минут на Blackwell RTX Pro 6000 и около 2-ч часов на A100, при этом нужно около 70 Гб видеопамяти
• Максималное разрешение 720р (которое потом, конечно апскейлится в разумных пределах и доводится до ума с помощью motion blur и других инструментов)
📝 Технические детали:
• Сервис аренды GPU: Runpod (довольно дешевый, но со своими нюансами)
• Интерфейс: ComfyUI
• Промпты: ChatGPT + много-много правок
• Картинки: «условно бесплатно» через ChatGPT, Sora и бесплатно в Piclumen. С подпиской Midjourney получилось бы намного быстрее
• Текст диктора: написал сам
• Голос: Elevenlabs
• Звуки: Freesound
• Музыка: Suno
• Монтаж и цветкор: Davinci Resolve
• Upscale финального кадра: Topaz
• Первый кадр: Higgsfield
• Тоннель из шипов и кусок финального кадра под пэкшотом: Kling 2.1 (бесплатные кредиты)
Потрачено примерно 20 тыс рублей.
Итог - я прошел через весь производственный процесс ИИ рекламного ролика с условными комментариями и доработками.
@cgevent
2🔥184👍56❤17👎5
This media is not supported in your browser
VIEW IN TELEGRAM
В десктопной версии Gemini теперь можно делать целые книжки с картинками.
Гемини сама напишет историю, может взять ваши картинки на вход для стиля, и сделает не просто книжку, но и аудио версию к ней.
Мне это напоминает диафильмы на стероидах.
Достаточно написать в промпте "create storybook about ....как срать не снимая свитер"
Он сделает книжку, ее можно смотреть в Гемини, там же слушать или шарить ссылку.
Экспорта в пдф или MP4 не нашел.
Поглядите пример:
https://gemini.google.com/share/52a81c4683ea
Работает только в браузерной версии Гемини. В мобильном приложении пока нет.
Пришёл вечером домой, давайте дети сказку послушаем. Про свитер.
Поставил аудио версию, вывел картинки на телевизор, и ну спать (или новости писать в телегу)
@cgevent
Гемини сама напишет историю, может взять ваши картинки на вход для стиля, и сделает не просто книжку, но и аудио версию к ней.
Мне это напоминает диафильмы на стероидах.
Достаточно написать в промпте "create storybook about ....
Он сделает книжку, ее можно смотреть в Гемини, там же слушать или шарить ссылку.
Экспорта в пдф или MP4 не нашел.
Поглядите пример:
https://gemini.google.com/share/52a81c4683ea
Работает только в браузерной версии Гемини. В мобильном приложении пока нет.
Пришёл вечером домой, давайте дети сказку послушаем. Про свитер.
Поставил аудио версию, вывел картинки на телевизор, и ну спать (или новости писать в телегу)
@cgevent
😁39❤24😱8👍6🔥5👎1
А саму GPT-5 покажут завтра, в четверг, в восемь вечера по Москве.
Если это не шутка, конечно.
@cgevent
Если это не шутка, конечно.
@cgevent
❤14👍6👎1
Forwarded from Psy Eyes
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Runway: выпустили небольшой гайд как пользоваться их новой моделью Aleph для редактирования видео: генерации нового ракурса, инпейнта/аутпейнта, смены освещения, изменения анимации, стайлтрансфера, итд.
Закидываем в интерфейс или Runway-чат видео желательно 1280x720 длиной до 5 сек. Можно обойтись коротким промтом, но чем детальнее он будет, тем проще модели будет понять что именно нужно поменять в кадре и как.
Если нужно, чтобы что-то в кадре осталось неизменными, это стоит указать и схоже по принципу с Flux Kontext. Только в отличие от последнего тут можно попросить ещё и чтобы сохранялось движение камеры, освещение, итд.
Можно вкидывать и визуальные рефы (например, какую одежду надеть) или инструкции в виде скетчей каким действие должно быть в сцене.
Доступ к Aleph раскатан на всех платных подписчиков.
У кого есть подписка дропайте в комменты что у вас получается с ним сотворить. Как далеко от черрипиков и какие подводные камни?
Твит
Сайт
Закидываем в интерфейс или Runway-чат видео желательно 1280x720 длиной до 5 сек. Можно обойтись коротким промтом, но чем детальнее он будет, тем проще модели будет понять что именно нужно поменять в кадре и как.
Если нужно, чтобы что-то в кадре осталось неизменными, это стоит указать и схоже по принципу с Flux Kontext. Только в отличие от последнего тут можно попросить ещё и чтобы сохранялось движение камеры, освещение, итд.
Можно вкидывать и визуальные рефы (например, какую одежду надеть) или инструкции в виде скетчей каким действие должно быть в сцене.
Доступ к Aleph раскатан на всех платных подписчиков.
У кого есть подписка дропайте в комменты что у вас получается с ним сотворить. Как далеко от черрипиков и какие подводные камни?
Твит
Сайт
👍24❤11🔥1