Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Адоб со своими продуктами превратился в нейрокомбайн и фичи которые показывали на конференции реально сильно меняют индустрию, фото и видео. Продукты адоб с нейронками и без это, как компьютер с интернетом и без.
1. Сегментация звука и разбивка по источникам звука которые можно редактировать.
2. Транскрибция голоса и редактирование отдельных слов с сохранением консистентности голоса говорящего 🤌
3. Изменение наративного повествования с добавлением эмоции в голос (шепот, грусть, уверенность и т.д.)
4. Релайт сцены с предварительным переводом сцены в драфт 3D.
5. Выделение некоторых объектов на видео и перевод их в 3D с текстурами, объекты можно вращать, менять перспективу под ракурс и потом апскейлить, если текстурки немного пожались при искажениях ☠️
6. Удаление источника света который дает засвет в кадр, с изменением самого кадра!
Там еще много чего, и так будете опять на меня орать, что видео много качать😭
Всю трех часовую конфу можно посмотреть на YT
@CGIT_Vines
1. Сегментация звука и разбивка по источникам звука которые можно редактировать.
2. Транскрибция голоса и редактирование отдельных слов с сохранением консистентности голоса говорящего 🤌
3. Изменение наративного повествования с добавлением эмоции в голос (шепот, грусть, уверенность и т.д.)
4. Релайт сцены с предварительным переводом сцены в драфт 3D.
5. Выделение некоторых объектов на видео и перевод их в 3D с текстурами, объекты можно вращать, менять перспективу под ракурс и потом апскейлить, если текстурки немного пожались при искажениях ☠️
6. Удаление источника света который дает засвет в кадр, с изменением самого кадра!
Там еще много чего, и так будете опять на меня орать, что видео много качать
Всю трех часовую конфу можно посмотреть на YT
@CGIT_Vines
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤1🤷♂1👍1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Pomelli
Экспериментальный инструмент от Google, для создания маркетингового контента в едином стиле.
Закидываем на вход сайт компании, на выходе айдентика, цвета, шрифты, логотипы и т д.
Пока доступен в США, Канаде, Австралии и Новой Зеландии, скоро появится и в других странах.
#design
Экспериментальный инструмент от Google, для создания маркетингового контента в едином стиле.
Закидываем на вход сайт компании, на выходе айдентика, цвета, шрифты, логотипы и т д.
Пока доступен в США, Канаде, Австралии и Новой Зеландии, скоро появится и в других странах.
#design
👍4👎2
Forwarded from CG Kung Fu
Инсайды илм!
Как то пропустил я этот момент но оказывается у нас в студии уже как пару месяцев тестируют все департаменты ИИ в работе, смотрят на что способен. Приходило всем письмо кто хочет поучаствовать в тестах, я видимо проспал этот момент.
Вобщем там результаты ахуеть уже, и фхы и локации и пролеты, илм и дисней приобрели чуть ли не все Ии тулзы и тестируем по максимуму выжимая и проверяя до какого уровня можно дотянуть. Я сам не тестил но коллеги говорят там 90% можно получить быстро а остальные 10% страдаешь и ебешься чтоб добить мелочи и правки и мечтаешь в карме это все быстрее сделать.
Восновном в комфи ИИ сидим.
И такой же слух про другие студии уже есть, днег и прочие сидят тыкают ИИ и тестируют шоты и сцены. И наняты какие то супер умы с phd думают как обвесить ИИ контролами.
Не хочется паниковать, но кажется пора…
Уже вижу как это все будет происходит в будущем, зп снижать нам не будут а будут появляться новые вакансии типа Senior AI Generalist или Senior AI VFX, и будут просто более сжатые дедлайны и больше задач на одного спеца. Короче пиздец.
Как то пропустил я этот момент но оказывается у нас в студии уже как пару месяцев тестируют все департаменты ИИ в работе, смотрят на что способен. Приходило всем письмо кто хочет поучаствовать в тестах, я видимо проспал этот момент.
Вобщем там результаты ахуеть уже, и фхы и локации и пролеты, илм и дисней приобрели чуть ли не все Ии тулзы и тестируем по максимуму выжимая и проверяя до какого уровня можно дотянуть. Я сам не тестил но коллеги говорят там 90% можно получить быстро а остальные 10% страдаешь и ебешься чтоб добить мелочи и правки и мечтаешь в карме это все быстрее сделать.
Восновном в комфи ИИ сидим.
И такой же слух про другие студии уже есть, днег и прочие сидят тыкают ИИ и тестируют шоты и сцены. И наняты какие то супер умы с phd думают как обвесить ИИ контролами.
Не хочется паниковать, но кажется пора…
Уже вижу как это все будет происходит в будущем, зп снижать нам не будут а будут появляться новые вакансии типа Senior AI Generalist или Senior AI VFX, и будут просто более сжатые дедлайны и больше задач на одного спеца. Короче пиздец.
💯14🤔5😁3🥴2❤1
Media is too big
VIEW IN TELEGRAM
Emu3.5: Native Multimodal Models are World Learners
Только в начале месяца был генератор-пониматор картинок Emu3, как вот уже Emu3.5. Умеет создавать изображения и последовательности изображений, редактировать изображения, понимать, ориентируется в изображаемом пространстве. Ну и в качестве мозгов для робота сойдет.
Масштабная мультимодальная world-модель, объединяет текст и изображение в единое пространство восприятия
Способна одновременно обрабатывать два потока данных (текстовый и визуальный) и предсказывать их совместное состояние на каждом шаге. Такой подход делает модель ближе к тому, как человек воспринимает и осмысляет мир, связывая язык, зрение и действие в единую систему.
Конкурирует с Gemini 2.5 Flash Image (Nano Banana) в генерации и редактировании изображений и превосходит её в задачах с чередующимися генерациями
Гитхаб
HF
#text2image #text2video #video2video #videoextension
Только в начале месяца был генератор-пониматор картинок Emu3, как вот уже Emu3.5. Умеет создавать изображения и последовательности изображений, редактировать изображения, понимать, ориентируется в изображаемом пространстве. Ну и в качестве мозгов для робота сойдет.
Масштабная мультимодальная world-модель, объединяет текст и изображение в единое пространство восприятия
Способна одновременно обрабатывать два потока данных (текстовый и визуальный) и предсказывать их совместное состояние на каждом шаге. Такой подход делает модель ближе к тому, как человек воспринимает и осмысляет мир, связывая язык, зрение и действие в единую систему.
Конкурирует с Gemini 2.5 Flash Image (Nano Banana) в генерации и редактировании изображений и превосходит её в задачах с чередующимися генерациями
Гитхаб
HF
#text2image #text2video #video2video #videoextension
👍7🔥3❤1
Покойся с миром UDIO
UDIO отключает возможность скачивания треков из-за
На самом деле нет, не с артистами, а с лейблом UMG
Платным подписчикам накидают кредитов, но сказать что юзеры разочарованы — это ничего не сказать. Вот например кто-то создавал в UDIO полную оркестровку для кино и готовит судебный иск
Начиная с 3 ноября дадут 48 часов на скачивание уже созданных треков, завтра объявят точное время.
#news
UDIO отключает возможность скачивания треков из-за
заключения партнерства с артистами
На самом деле нет, не с артистами, а с лейблом UMG
Платным подписчикам накидают кредитов, но сказать что юзеры разочарованы — это ничего не сказать. Вот например кто-то создавал в UDIO полную оркестровку для кино и готовит судебный иск
Начиная с 3 ноября дадут 48 часов на скачивание уже созданных треков, завтра объявят точное время.
#news
😱6😁4😈3⚡1😐1
Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
Поженили Stable Audio с моделью мира V-JEPA 2 чтобы получить генератор звуковых эффектов к видео
Кода и весов не видать
#research #foley #video2sfx #sfx #video2audio #video2sound
Поженили Stable Audio с моделью мира V-JEPA 2 чтобы получить генератор звуковых эффектов к видео
Кода и весов не видать
#research #foley #video2sfx #sfx #video2audio #video2sound
👍7😁3
Media is too big
VIEW IN TELEGRAM
MiniMax Music 2.0
Заявлено:
- Реалистичный вокал в разных стилях с разными эмоциями
- Поп, джаз, блюз, рок, фолк, дуэты и а капелла
- Качество звука профессионального уровня
- Полные 5-минутные композиции с мультиинструментальным управлением
- Точный контроль музыкальной выразительности
API
Также есть на fal.ai - 0,03 доллара за генерацию
#text2music #music
Заявлено:
- Реалистичный вокал в разных стилях с разными эмоциями
- Поп, джаз, блюз, рок, фолк, дуэты и а капелла
- Качество звука профессионального уровня
- Полные 5-минутные композиции с мультиинструментальным управлением
- Точный контроль музыкальной выразительности
API
Также есть на fal.ai - 0,03 доллара за генерацию
#text2music #music
👍8🥴4❤2😁2
Media is too big
VIEW IN TELEGRAM
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
Модель для работы с 3D-представлениями. Имитирует человеческий процесс обучения абстрактным понятиям.
Проще говоря, создает реконструкции 3D сцен по видео или облаку точек. Ну то есть на вход можно подать и готовую сцену на гауссианах .ply, и он должен ее улучшить.
Код
Демо
#reconstruction #video2scene #rendering #gaussian #videoto3d
Модель для работы с 3D-представлениями. Имитирует человеческий процесс обучения абстрактным понятиям.
Проще говоря, создает реконструкции 3D сцен по видео или облаку точек. Ну то есть на вход можно подать и готовую сцену на гауссианах .ply, и он должен ее улучшить.
Код
Демо
#reconstruction #video2scene #rendering #gaussian #videoto3d
👍4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
WorldGrow: Generating Infinite 3D World
Генератор бесконечных явных 3D-миров, альтернатива существующим симуляторам интерактивных миров
Создаёт бесконечно расширяемые 3D-миры с согласованной геометрией и реалистичным внешним видом
Не страдает от геометрических и визуальных несоответствий, как методы 2D-лифта.
Не ограничивается генерацией объектов, как современные 3D базовые модели, а работает на уровне сцен.
Код ждем
#text2world #world #text2scene
Генератор бесконечных явных 3D-миров, альтернатива существующим симуляторам интерактивных миров
Создаёт бесконечно расширяемые 3D-миры с согласованной геометрией и реалистичным внешним видом
Не страдает от геометрических и визуальных несоответствий, как методы 2D-лифта.
Не ограничивается генерацией объектов, как современные 3D базовые модели, а работает на уровне сцен.
Код ждем
#text2world #world #text2scene
👍12
💻 ИИ - не просто инструмент?
Я айтишник с 30-летним стажем, и когда я начинал — интернет шумел модемами, код писали в блокноте, а искусственный интеллект был темой для обсуждения в академических кругах.
Сегодня я — CDTO в IThub, и я замечаю, как ИИ перестраивает процессы: от архитектуры продуктов до стратегии компаний.
⚙️ Мы уже не просто автоматизируем — мы передаём машинам часть мышления.
Мы учим ИИ, а он учит нас, а чему именно — разбираю на своем канале @aivkube 🧠 На нем тестирую LLM, анализирую рынок IT профессий и разбираю, куда всё это идёт с точки зрения технологий и стратегии.
👨🏻 Без хайпа, без воды — мой взгляд как практика.
Если вы хотите понимать не только что делает ИИ, но и почему это важно сейчас — присоединяйтесь.
👉 @aivkube
Erid: 2SDnjdLqzyd
Название: ДОЛГОВ СЕРГЕЙ СЕРГЕЕВИЧ
ИНН: 503215950876
Я айтишник с 30-летним стажем, и когда я начинал — интернет шумел модемами, код писали в блокноте, а искусственный интеллект был темой для обсуждения в академических кругах.
Сегодня я — CDTO в IThub, и я замечаю, как ИИ перестраивает процессы: от архитектуры продуктов до стратегии компаний.
⚙️ Мы уже не просто автоматизируем — мы передаём машинам часть мышления.
Мы учим ИИ, а он учит нас, а чему именно — разбираю на своем канале @aivkube 🧠 На нем тестирую LLM, анализирую рынок IT профессий и разбираю, куда всё это идёт с точки зрения технологий и стратегии.
👨🏻 Без хайпа, без воды — мой взгляд как практика.
Если вы хотите понимать не только что делает ИИ, но и почему это важно сейчас — присоединяйтесь.
👉 @aivkube
Erid: 2SDnjdLqzyd
Название: ДОЛГОВ СЕРГЕЙ СЕРГЕЕВИЧ
ИНН: 503215950876
😁3🍌3😐1👀1
ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation
NVIDIA выпустила в опенсорс модель, которая подходит к задаче редактирования изображения как к генерации видео. Иначе говоря, взяли видеогенератор и заставили редактировать картинки с соблюдением физики, согласованности и всего вот этого.
Бонус такого подхода — можно получить визуализацию процесса «рассуждения» модели в виде видео
Гитхаб
Демо
HF
#imageediting #image2video
NVIDIA выпустила в опенсорс модель, которая подходит к задаче редактирования изображения как к генерации видео. Иначе говоря, взяли видеогенератор и заставили редактировать картинки с соблюдением физики, согласованности и всего вот этого.
Бонус такого подхода — можно получить визуализацию процесса «рассуждения» модели в виде видео
Гитхаб
Демо
HF
#imageediting #image2video
👍13🔥4
Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation
Метод оживления портретов по аудио, фокус на удержании идентичности от KAIST
Код ждем
#portraitanimation #characteranimation #image2video #personalization #audio2video #speech2video
Метод оживления портретов по аудио, фокус на удержании идентичности от KAIST
Код ждем
#portraitanimation #characteranimation #image2video #personalization #audio2video #speech2video
🔥9👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Game-TARS
Игровой агент от ByteDance, осваивает видеоигры и цифровые среды, используя человекоподобное восприятие и мышление
Ориентирован на унерсальность, может играть в незнакомые игры, на которые не обучался.
Выбил #SOTA на Open-world Minecraft
Гитхаб - ссылка ведет на UI-TARS
#gaming #agent
Игровой агент от ByteDance, осваивает видеоигры и цифровые среды, используя человекоподобное восприятие и мышление
Ориентирован на унерсальность, может играть в незнакомые игры, на которые не обучался.
Выбил #SOTA на Open-world Minecraft
Гитхаб - ссылка ведет на UI-TARS
#gaming #agent
❤3👍3