Нейронавт | Нейросети в творчестве
Sapiens: Foundation for Human Vision Models Семейство моделей от Meta Reality Labs для выполнения четырех задач на изображениях человеков: - оценка 2D-позы - сегментация частей тела - карта глубины - карта нормалей Код Демо #image2pose #segmentation #image2mask…
Для Sapiens появился демоспейс
Для видео удалось запустить только самую младшую модель 0.3b, остальные выдавали ошибку, а потом токены кончились
Демо
#image2pose #segmentation #image2mask #image2depth #image2normal #video2normal
Для видео удалось запустить только самую младшую модель 0.3b, остальные выдавали ошибку, а потом токены кончились
Демо
#image2pose #segmentation #image2mask #image2depth #image2normal #video2normal
👍4🤔2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
CogVideoX 5B
Я уже писал про CogVideoX, и вот вся лента завалена выпущенной вчера моделью 5B.
Работает даже на 12ГБ VRAM (не проверял), конкурирует с коммерческими лидерами
Го тестить!
Демо
tost.ai (она там есть)
Колаб
ComfyUI (в разработке)
#text2video
Я уже писал про CogVideoX, и вот вся лента завалена выпущенной вчера моделью 5B.
Работает даже на 12ГБ VRAM (не проверял), конкурирует с коммерческими лидерами
Го тестить!
Демо
tost.ai (она там есть)
Колаб
ComfyUI (в разработке)
#text2video
🔥10❤1
Нейронавт | Нейросети в творчестве
Vidu Видеогенератор от китайцев, сопоставимый с Sora Есть только статья на китайском 🇨🇳 #text2video #news
Vidu
Видеогенератор обзавелся сайтом, где можно генерить видео по тексту и по картинке.
Говорят, хорошо держит консистентность персонажа с картинки.
Есть улучшайзер-рандомайзер промпта, API.
На старте выдают 80 кредитов, их хватит на 10 четырехсекундных видео с апскейлом. Можно делать 8-секундные.
Го тестить!
#text2video #image2video
Видеогенератор обзавелся сайтом, где можно генерить видео по тексту и по картинке.
Говорят, хорошо держит консистентность персонажа с картинки.
Есть улучшайзер-рандомайзер промпта, API.
На старте выдают 80 кредитов, их хватит на 10 четырехсекундных видео с апскейлом. Можно делать 8-секундные.
Дуров сбегает из Франции
Го тестить!
#text2video #image2video
👍8😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation
Новый интерполятор кадров от Google DeepMind. Посмотрите на сайте насколько он круче FILM. Из двух кадров делает видео
А почему они не сравнили его со своим же VIDIM?
Код
#frameinterpolation #slowmotion
Новый интерполятор кадров от Google DeepMind. Посмотрите на сайте насколько он круче FILM. Из двух кадров делает видео
А почему они не сравнили его со своим же VIDIM?
Код
#frameinterpolation #slowmotion
❤10👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Splatt3R
Демоспейс для создания 3d сцены на гауссианах по всего двум ракурсам. Если у вас есть одна картинка, второй ракурс можно сгенерить видеогенератором, как сделали на реддите
Например в Runway ML Gen3-Turbo промпт: "Orbit Right"
#gaussian #image2gaussian #image2scene #imageto3d
Демоспейс для создания 3d сцены на гауссианах по всего двум ракурсам. Если у вас есть одна картинка, второй ракурс можно сгенерить видеогенератором, как сделали на реддите
Например в Runway ML Gen3-Turbo промпт: "Orbit Right"
#gaussian #image2gaussian #image2scene #imageto3d
❤8👍1
Towards Realistic Example-based Modeling via 3D Gaussian Stitching
3D-моделирование гауссианами на основе примеров.
Наконец что-то с контролем результата и GUI.
Рабочий процесс состоит из трех этапов:
1) сегментация и преобразование гауссовой модели в реальном времени с использованием GUI
2) анализ KNN для определения граничных точек в области пересечения исходной и целевой моделей
3) двухфазная оптимизация целевой модели с использованием клонирования на основе выборки и градиентных ограничений.
Если вы чего-то не поняли в этом описании, я тоже. Гляньте видео, там примерно видно процесс
Код ждем
#imageto3d #modeling #photogrammetry #gaussian #image2gaussian
3D-моделирование гауссианами на основе примеров.
Наконец что-то с контролем результата и GUI.
Рабочий процесс состоит из трех этапов:
1) сегментация и преобразование гауссовой модели в реальном времени с использованием GUI
2) анализ KNN для определения граничных точек в области пересечения исходной и целевой моделей
3) двухфазная оптимизация целевой модели с использованием клонирования на основе выборки и градиентных ограничений.
Если вы чего-то не поняли в этом описании, я тоже. Гляньте видео, там примерно видно процесс
Код ждем
#imageto3d #modeling #photogrammetry #gaussian #image2gaussian
🔥8👍3
Опубликован код реставратора-апскейлера лиц на видео KEEP
Свое видео в демке обработать не удалось - выдает пустые видео.
Вероятно, надо предварительно кропнуть и выровнять лицо.
Видно что кипят волосы, лицо тоже подкипает. Надеюсь прикрутят рульку силы эффекта
Код
Демо
#restoration #enhance #facerestoration #upscale
Свое видео в демке обработать не удалось - выдает пустые видео.
Вероятно, надо предварительно кропнуть и выровнять лицо.
Видно что кипят волосы, лицо тоже подкипает. Надеюсь прикрутят рульку силы эффекта
Код
Демо
#restoration #enhance #facerestoration #upscale
👍4👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Edit
В Resemble AI прикрутили редактирование звука речи через редактирование текста. В помощь живым запинающимся дикторам. Да, вот так как нам показывали Adobe 7 лет назад. Или что там, в премьер уже встроили эту фичу?
#speechediting #audioediting #text2speech #speech2speech
В Resemble AI прикрутили редактирование звука речи через редактирование текста. В помощь живым запинающимся дикторам. Да, вот так как нам показывали Adobe 7 лет назад. Или что там, в премьер уже встроили эту фичу?
#speechediting #audioediting #text2speech #speech2speech
👍5🤯4
Forwarded from Data Secrets
Это примерно 10 миллионов строк кода или 750 романов. Для сравнения, до этого рекордсменом по длине контекста был Gemini с 1M токенов, и даже это число произвело когда-то на презентации Google фурор.
Иронично, но модель называется LTM-2-Mini. LTM – это сокращение от Long-Term Memory. Эта архитектура не использует attention, и за счет этого контекстное окно в 100М ей обходится примерно в 1000 раз дешевле, чем, например, той же Llama 3.1 405B. А с памятью еще круче: если Llama потребовала бы 638 H100s на юзера только чтобы хранить KV кэш, то LTM требуется всего часть HBM одной видеокарты.
Бенчмарков пока нет, но в Magic уже заключили партнерство на кластер с Google Cloud и говорят, что прямо сейчас обучают бОльшую версию LTM-2 на суперкомпьютере
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20🎃3👍1