Forwarded from Dealer.AI
Media is too big
VIEW IN TELEGRAM
Юмор.
Когда после НГ обнулился салатный кэш и решил потестить GPT на бытовуху.
Когда после НГ обнулился салатный кэш и решил потестить GPT на бытовуху.
🤣33❤11😁4🤡2
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
На реддите тип под ником ai_happy собрал сборку Trellis с пониженными требованиями к памяти. С 16Gb до 8Gb и однокликовым установщиком, как у A1111. Не требует cuda toolkit, powershell и admin'ских прав. Говорит, потери в качестве нет.
Добавил api support + documentation.
Как вернусь домой к компу, буду тестить, если кто-то развернет раньше, кидайте сюда свои результаты!❤️
Git тут
@CGIT_Vines
Добавил api support + documentation.
Как вернусь домой к компу, буду тестить, если кто-то развернет раньше, кидайте сюда свои результаты!
Git тут
@CGIT_Vines
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Сегодня, конечно, день Нвидия.
Они опенсорснули код Cosmos, и это, конечно, космос!
Developer-first world foundation model platform designed to help Physical AI developers build their Physical AI systems better and faster
Долго писать, это опенсорсная World Model.
Выглядит очень круто, го тестировать. Там и video search, и 3Д, и метаверсищще.
Pre-trained Diffusion-based world foundation models for Text2World and Video2World generation where a user can generate visual simulation based on text prompts and video prompts.
Pre-trained Autoregressive-based world foundation models for Video2World generation where a user can generate visual simulation based on video prompts and optional text prompts.
Video tokenizers for tokenizing videos into continuous tokens (latent vectors) and discrete tokens (integers) efficiently and effectively.
Post-training noscripts to post-train the pre-trained world foundation models for various Physical AI setup.
Video curation pipeline for building your own video dataset.
https://github.com/NVIDIA/Cosmos
Ссылки:
https://www.nvidia.com/en-us/ai/cosmos/
https://huggingface.co/nvidia/Cosmos-1.0-Guardrail
@cgevent
Они опенсорснули код Cosmos, и это, конечно, космос!
Developer-first world foundation model platform designed to help Physical AI developers build their Physical AI systems better and faster
Долго писать, это опенсорсная World Model.
Выглядит очень круто, го тестировать. Там и video search, и 3Д, и метаверсищще.
Pre-trained Diffusion-based world foundation models for Text2World and Video2World generation where a user can generate visual simulation based on text prompts and video prompts.
Pre-trained Autoregressive-based world foundation models for Video2World generation where a user can generate visual simulation based on video prompts and optional text prompts.
Video tokenizers for tokenizing videos into continuous tokens (latent vectors) and discrete tokens (integers) efficiently and effectively.
Post-training noscripts to post-train the pre-trained world foundation models for various Physical AI setup.
Video curation pipeline for building your own video dataset.
https://github.com/NVIDIA/Cosmos
Ссылки:
https://www.nvidia.com/en-us/ai/cosmos/
https://huggingface.co/nvidia/Cosmos-1.0-Guardrail
@cgevent
🔥11❤4👍1
Forwarded from Ai molodca (Dobrokotov)
This media is not supported in your browser
VIEW IN TELEGRAM
Очень занимательная и наглядная эволюция видео-моделей за два года (нашел в Твиттере). Для большего контраста можно было взять и китайский modelscope, но и так годно.
🔥32😁3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Real World Photography Experimenter
Рубрика крутые подписчики.
Саша Мелентьев прислал мне очень годный Workflow в ComfyUI для комбинирования трех изображений в одну фотореалистичную фотографию. Доступен в облаке по ссылке ниже.
Очень хорош для создания "ювелирки", продуктовой фотографии, для портретов людей, а также для генерации концептов окружения. И, наверное, много чего еще...
Для примера. Берем подводный 3D рендер в Style, фотографию улицы в Env, кольцо с камнем в Obj - получаем кольцо на коралле в затопленном городе.
Тест здесь. Real World Photography Experimenter
Вообще, этот пост, судить если по картинкам в генерации, можно назвать "Девушка или ваза".
@cgevent
Рубрика крутые подписчики.
Саша Мелентьев прислал мне очень годный Workflow в ComfyUI для комбинирования трех изображений в одну фотореалистичную фотографию. Доступен в облаке по ссылке ниже.
Очень хорош для создания "ювелирки", продуктовой фотографии, для портретов людей, а также для генерации концептов окружения. И, наверное, много чего еще...
Для примера. Берем подводный 3D рендер в Style, фотографию улицы в Env, кольцо с камнем в Obj - получаем кольцо на коралле в затопленном городе.
Тест здесь. Real World Photography Experimenter
Вообще, этот пост, судить если по картинкам в генерации, можно назвать "Девушка или ваза".
@cgevent
🔥12❤3👍1
Тем временем SANA стала ваистену опенсорсной (правда, только код :D)
https://github.com/NVlabs/Sana
https://github.com/NVlabs/Sana
GitHub
GitHub - NVlabs/Sana: SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer - NVlabs/Sana
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
К Sam2 прикрутили llava, и теперь можно сегментировать картинки и видео по текстовому запросу, как было в sam+grounding dino.
Трекает тоже хорошо, даже с перекрытием объектов.
X
Demo
Paper
@derplearning
К Sam2 прикрутили llava, и теперь можно сегментировать картинки и видео по текстовому запросу, как было в sam+grounding dino.
Трекает тоже хорошо, даже с перекрытием объектов.
X
Demo
Paper
@derplearning
🔥22🤡1
MicroDiT;
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
Внезапно, Sony Research выкатили фреймворк для обучения 1.16b DiT до уровня StableDiffusion 1.5 за 2k$ с нуля.
Если мне не изменяет память, sd1.x обошелся в 130000$ :D
В целом, давно хотелось какого-то text2img бенчмарка вроде llm.c от Карпатыча, но при этом не на основе непонятного претрена, и с результатом, который можно оценить не только по метрикам, но и визуально.
Чтобы тестить разные архитектурные фишки с понятным бейзлайном.
Например, натренить эту модель с DC-AE и другими фишками из EfficientViT\SANA
Т.к. модель тренят в 4 этапа (256+маска, 256, 512+маска, 512), вполне можно гонять тесты на 256х256.
Ура товарищи!
paper
code
models
@derplearning
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
Внезапно, Sony Research выкатили фреймворк для обучения 1.16b DiT до уровня StableDiffusion 1.5 за 2k$ с нуля.
Если мне не изменяет память, sd1.x обошелся в 130000$ :D
В целом, давно хотелось какого-то text2img бенчмарка вроде llm.c от Карпатыча, но при этом не на основе непонятного претрена, и с результатом, который можно оценить не только по метрикам, но и визуально.
Чтобы тестить разные архитектурные фишки с понятным бейзлайном.
Например, натренить эту модель с DC-AE и другими фишками из EfficientViT\SANA
Т.к. модель тренят в 4 этапа (256+маска, 256, 512+маска, 512), вполне можно гонять тесты на 256х256.
Ура товарищи!
paper
code
models
@derplearning
❤10👍4🎉3🔥2
Forwarded from Zavtracast (Ярослав Ивус)
Программист провёл расчёты, чтобы выяснить, насколько эффективно дарить инженерам из компании конкурентов Factorio, чтобы саботировать их работу. В качестве примера он взял стартап Палмера Лаки Anduril, который работает на армию США.
Автор расчётов взял данные о доходах сотрудников компании и раскидал их на три категории: 20% тех, у кого уже есть Factorio, 60% неиграющих и 20% тех, кто будет проводить 1-5 часов в день после того, как внезапно получит Factorio.
Каждый инженер из последней категории будет в среднем приносить убыток компании в $84 в неделю. При этом Factorio с DLC обойдётся в $70.
@zavtracast
Автор расчётов взял данные о доходах сотрудников компании и раскидал их на три категории: 20% тех, у кого уже есть Factorio, 60% неиграющих и 20% тех, кто будет проводить 1-5 часов в день после того, как внезапно получит Factorio.
Каждый инженер из последней категории будет в среднем приносить убыток компании в $84 в неделю. При этом Factorio с DLC обойдётся в $70.
@zavtracast
😁71👍8❤5🤡5
Forwarded from Gamba
Ахахахаха напомнило мне как на какой-то конфе по wearables я встретил Филипп Кана, фаундера Borland
Я рассказал ему, как ещё школьником писал на борланд си в 91 году в компьютерной лабе у папы в институте, и студент, который там подрабатывал, был для меня прям начальник, инженеры - магами, а начальник лабы - богом
И тут я говорю с фаундером бля борланда, если бы тридцать лет назад мне кто-то такое сказал я б не поверил
А он мне рассказывает как в 90 он поехал делать бизнес в Москве, и как всё накрылось во время путча и как они с помощью бандитов получили свою инвестицию назад вагоном икры и вагоном водки
Я рассказал ему, как ещё школьником писал на борланд си в 91 году в компьютерной лабе у папы в институте, и студент, который там подрабатывал, был для меня прям начальник, инженеры - магами, а начальник лабы - богом
И тут я говорю с фаундером бля борланда, если бы тридцать лет назад мне кто-то такое сказал я б не поверил
А он мне рассказывает как в 90 он поехал делать бизнес в Москве, и как всё накрылось во время путча и как они с помощью бандитов получили свою инвестицию назад вагоном икры и вагоном водки
🔥62😁41👍10🗿6❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем в SpaceX устроили незапланированный салют памяти Дэвида Линча
🫡55🔥17🤩7😢3🤣2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Вот вам пример видеогенерации, от которого у меня немного закипел мозг.
Мы тут извращаемся в промптах, пытаясь заставить двигаться камеру или персонажа.
Но.
Оказывается, можно попросить ИИ добавить на видео гринскрин (этим я вас не удивлю) и, внимание, маркеры для трекинга камеры (а вот этим удивлю). Для того, чтобы потом оттрекать камеру в AE или Нюке, восстановить движение объектов в 3Д, убрать фон и навалить сверху нормальной графики или футажа.
В общем все, как на съемках с парой супервазеров, мешком маркеров, тейпов, рулеток, далее по списку. Только промптом!
И судя по этому примеру у Veo2 (пока крайней мере у него, но думаю и у остальных) в голове есть реальная модель 3Д мира и вполне себе эвклидово пространство, ибо это работает и условная фотограмметрия не ломается.
Я в шоке. А вы не поленитесь, почитайте нехилый такой промпт, где написано про маркеры, гринскрин и прочую супервайзерскую требуху (тут есть момент, чтобы писать такой промпт, надо как бы быть в супервайзерской теме, но об этом в другой раз).
Я уж не знаю, на чему учили Veo2, но то, что это вообще работает, приводит меня в восторг.
Подробности тут.
Кто совсем ничего не понял: здесь только девушка (см. промпт). Среднее видео демонстрирует добавление созданной человеком модели (андроид, G) в сцену, созданную ИИ, а нижнее - объединение созданного ИИ персонажа (девушки) в созданную человеком сцену (сакура и небесное пространство). В обоих случаях необходимы данные с камеры, полученные в результате работы ИИ.
Попробуйте в Клинге что ли...
@cgevent
Мы тут извращаемся в промптах, пытаясь заставить двигаться камеру или персонажа.
Но.
Оказывается, можно попросить ИИ добавить на видео гринскрин (этим я вас не удивлю) и, внимание, маркеры для трекинга камеры (а вот этим удивлю). Для того, чтобы потом оттрекать камеру в AE или Нюке, восстановить движение объектов в 3Д, убрать фон и навалить сверху нормальной графики или футажа.
В общем все, как на съемках с парой супервазеров, мешком маркеров, тейпов, рулеток, далее по списку. Только промптом!
И судя по этому примеру у Veo2 (пока крайней мере у него, но думаю и у остальных) в голове есть реальная модель 3Д мира и вполне себе эвклидово пространство, ибо это работает и условная фотограмметрия не ломается.
Я в шоке. А вы не поленитесь, почитайте нехилый такой промпт, где написано про маркеры, гринскрин и прочую супервайзерскую требуху
Я уж не знаю, на чему учили Veo2, но то, что это вообще работает, приводит меня в восторг.
Подробности тут.
Кто совсем ничего не понял: здесь только девушка (см. промпт). Среднее видео демонстрирует добавление созданной человеком модели (андроид, G) в сцену, созданную ИИ, а нижнее - объединение созданного ИИ персонажа (девушки) в созданную человеком сцену (сакура и небесное пространство). В обоих случаях необходимы данные с камеры, полученные в результате работы ИИ.
Попробуйте в Клинге что ли...
@cgevent
👍21🔥13👀2