Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Пару дней уже маячит этот пост, хочет всё же, чтобы я его вам показал.
По сути, ещё один способ рендерить генеративно для какой-нибудь рекламки или клипов. Меня тут сам процесс возмутил.
1. Build 3D Renders in Claude 3.7.
2. Program camera movements.
3. Screen record render.
4. Upload video to Runway Gen-3.
5. Extract 1st frame.
6. Magnific Struct. Ref. 1st frame.
7. Upload in Runway Restyle.
8. Generate.
Прям вот самый первый пункт! Из меня вырывается старый дед с render.ru: "Вы что, и моделить за меня будете?!" Вот в наше время...
На самом деле, насрать, как создаётся, если оно отвечает задачам. У меня скорее вопрос: как долго будут ждать производители софта для моделирования, чтобы встроить подобный генеративный функционал себе? Или они будут рассчитывать на создателей плагинов, как всегда делал Autodesk?🗡
Мы уже видели это для CAD-систем, Blender тоже не отстаёт, но это всё плагины. Со стороны компаний тоже хочется поддержки, бриджей, чтобы не приходилось танцевать с бубном.
По сути, ещё один способ рендерить генеративно для какой-нибудь рекламки или клипов. Меня тут сам процесс возмутил.
1. Build 3D Renders in Claude 3.7.
2. Program camera movements.
3. Screen record render.
4. Upload video to Runway Gen-3.
5. Extract 1st frame.
6. Magnific Struct. Ref. 1st frame.
7. Upload in Runway Restyle.
8. Generate.
Прям вот самый первый пункт! Из меня вырывается старый дед с render.ru: "Вы что, и моделить за меня будете?!" Вот в наше время...
На самом деле, насрать, как создаётся, если оно отвечает задачам. У меня скорее вопрос: как долго будут ждать производители софта для моделирования, чтобы встроить подобный генеративный функционал себе? Или они будут рассчитывать на создателей плагинов, как всегда делал Autodesk?
Мы уже видели это для CAD-систем, Blender тоже не отстаёт, но это всё плагины. Со стороны компаний тоже хочется поддержки, бриджей, чтобы не приходилось танцевать с бубном.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍5
Higgsfield AI
Сервис для создания длинных монтажных видеороликов от идеи до финального монтажа.
ИИ-ассистент Copilot проводит вас через
- Написание сценария
- Создание раскадровки. За картинки отвечает #Flux с выбором из нескольких стилей
- Генерация видео по картинке. Тут на выбор Minimax, Kling, Runway Gen-3 и своя модель Higgsfield (насколько своя - не знаю, сомневаюсь что с нуля делали)
- Монтаж. Есть простенький видеоредактор.
- Генерация речи/липсинк от Elevenlabs
Инпейнтинг для Flux обещают прикрутить на следующей неделе. Генератор музыки тоже планируют встроить.
Потренировался на кошках. С остальным звуком кроме речи помогли DiffRhythm, FoleyCrafter, TangoFlux
1 картинка стоит 1 кредит
1 видео MiniMax/Kling - 10 кредитов
1 видео Gen 3 - 5 кредитов
Бесплатных кредитов, увы, не дают. Но есть промокод на 100 кредитов:
#text2movie #noscript2movie #text2image #image2video
Сервис для создания длинных монтажных видеороликов от идеи до финального монтажа.
ИИ-ассистент Copilot проводит вас через
- Написание сценария
- Создание раскадровки. За картинки отвечает #Flux с выбором из нескольких стилей
- Генерация видео по картинке. Тут на выбор Minimax, Kling, Runway Gen-3 и своя модель Higgsfield (насколько своя - не знаю, сомневаюсь что с нуля делали)
- Монтаж. Есть простенький видеоредактор.
- Генерация речи/липсинк от Elevenlabs
Инпейнтинг для Flux обещают прикрутить на следующей неделе. Генератор музыки тоже планируют встроить.
Потренировался на кошках. С остальным звуком кроме речи помогли DiffRhythm, FoleyCrafter, TangoFlux
1 картинка стоит 1 кредит
1 видео MiniMax/Kling - 10 кредитов
1 видео Gen 3 - 5 кредитов
Бесплатных кредитов, увы, не дают. Но есть промокод на 100 кредитов:
HIGGS_DcU7s
#text2movie #noscript2movie #text2image #image2video
👍12🔥6👎2
Kimi k1.5
Похоже, китайская мультимодальная модель чуть обновилась
- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык
Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности
Чат
#assistant #mllm #mlm #reasoning
Похоже, китайская мультимодальная модель чуть обновилась
- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык
Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности
Чат
#assistant #mllm #mlm #reasoning
👍3
Опубликован код, веса и демо Diffusion as Shader
Код
Веса
Демо
#motioncontrol #cameracontrol #motiontransfer
Код
Веса
Демо
#motioncontrol #cameracontrol #motiontransfer
Telegram
Нейронавт | Нейросети в творчестве
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
Управление генерацией видео через понимание объема.
- управление камерой
- перенос движения с видео на 3D меш
- перенос движения с видео на изображение
- манипуляция объектами…
Управление генерацией видео через понимание объема.
- управление камерой
- перенос движения с видео на 3D меш
- перенос движения с видео на изображение
- манипуляция объектами…
❤3🔥2
Forwarded from Сиолошная
OpenAI представили на стриме 3 новых инструмента для разработчиков:
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.
Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).
Буду обновлять пост по мере появления информации (в основном, интересны цены).
UPD:
— цены: Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас). Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.
Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).
Буду обновлять пост по мере появления информации (в основном, интересны цены).
UPD:
— цены: Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас). Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
👍6👎1
Please open Telegram to view this post
VIEW IN TELEGRAM
7❤18😁7🍾6👏4
Инструкция по портативной установке Nunchaku v0.1.4 на Windows
+ Инструкция по конвертированию лор в формат SVDQuant для Nunchaku на ComfyUI Portable (Windows)
#ComfyUI #lora #text2image
+ Инструкция по конвертированию лор в формат SVDQuant для Nunchaku на ComfyUI Portable (Windows)
#ComfyUI #lora #text2image
Reddit
From the StableDiffusion community on Reddit: Nunchaku v0.1.4 (SVDQuant) ComfyUI Portable Instructions for Windows (NO WSL required)
Explore this post and more from the StableDiffusion community
❤8
triton-windows
Библиотека, из-за которой мы не могли запустить многие неКронки на Windows.
Благодаря одному энтузиасту, теперь устанавливается командой
По крайней мере, должна
#news
Библиотека, из-за которой мы не могли запустить многие неКронки на Windows.
Благодаря одному энтузиасту, теперь устанавливается командой
pip install triton-windows
По крайней мере, должна
#news
😱6👍4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
PERSE: Personalized 3D Generative Avatars from A Single Portrait
Анимируемый аватар головы на гауссианах по одному входному портрету с независимой настройкой параметров
Код ждем
#gaussian #head #avatar #facialanimation #image2avatar
Анимируемый аватар головы на гауссианах по одному входному портрету с независимой настройкой параметров
Код ждем
#gaussian #head #avatar #facialanimation #image2avatar
👍5🎃1
PE3R: Perception-Efficient 3D Reconstruction
Реконструкция 3D сцены по нескольким изображениям.
С поиском по сцене: пишем что нужно найти, и нам выделяют цветом заданный объект
Код
Демо
#image2scene #imageto3d
Реконструкция 3D сцены по нескольким изображениям.
С поиском по сцене: пишем что нужно найти, и нам выделяют цветом заданный объект
Код
Демо
#image2scene #imageto3d
👍3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement
А это улучшайзер реконструкций 3D объектов по нескольким изображениям-ракурсам. Улучшение 3D модели происходит за счет предварительного улучшения изображений, поданных на вход.
Код
Демо
#imageto3d #enhance3d #photogrammerty
А это улучшайзер реконструкций 3D объектов по нескольким изображениям-ракурсам. Улучшение 3D модели происходит за счет предварительного улучшения изображений, поданных на вход.
Код
Демо
#imageto3d #enhance3d #photogrammerty
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Lipdub Translation Editor
Сервис дубляжа/липсинка Lipdub AI представил функцию корректирования перевода.
Вам дают скорректировать текст который будет звучать в финальном дублированном видео на целевом языке.
Дают попробовать даже на бесплатном тарифе
#lipsync #dubbing #personalization #speechediting #speech2speech
Сервис дубляжа/липсинка Lipdub AI представил функцию корректирования перевода.
Вам дают скорректировать текст который будет звучать в финальном дублированном видео на целевом языке.
Дают попробовать даже на бесплатном тарифе
#lipsync #dubbing #personalization #speechediting #speech2speech
👍6🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Кому качество кода, кому минимум галлюцинаций.
А Лламе скорость
Llama-3.3-70B-Instruct шпарит со скоростью 2000 токенов в секунду.
Видео не ускорено
Playground - попробовать
#assistant
А Лламе скорость
Llama-3.3-70B-Instruct шпарит со скоростью 2000 токенов в секунду.
Видео не ускорено
Playground - попробовать
#assistant
👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation
Создание анимируемых 4D-сцен взаимодействия человека с объектом (HOI) непосредственно на основе текстовых данных
Код
#HOI #textto3d #textto4d
Создание анимируемых 4D-сцен взаимодействия человека с объектом (HOI) непосредственно на основе текстовых данных
Код
#HOI #textto3d #textto4d
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.0 Flash
В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью
Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»
#assistant #mlm #vlm #imageediting #text2image
В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью
Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»
#assistant #mlm #vlm #imageediting #text2image
👍7🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
VACE: All-in-One Video Creation and Editing
Видеогенератор от Alibaba / Tongyi Lab
Они прикрутили туда максимум ништяков: Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything
VACE может пересоздать видео с сохранением содержимого, структуры, объекта съемки, позы и движения и т.д.
Код и модель ждем
#text2video #video2video #personalization #videoediting
Видеогенератор от Alibaba / Tongyi Lab
Они прикрутили туда максимум ништяков: Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything
VACE может пересоздать видео с сохранением содержимого, структуры, объекта съемки, позы и движения и т.д.
Код и модель ждем
#text2video #video2video #personalization #videoediting
🔥11👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Wan2.1-control-loras
Аналог контролнета для Wn2.1
Дает повышение качества
Воркфлоу в комментах
#enhance #video2video #upscale #videorestoration
Аналог контролнета для Wn2.1
Дает повышение качества
Воркфлоу в комментах
#enhance #video2video #upscale #videorestoration
❤10🔥4