Emu3: Next-Token Prediction is All You Need
Новый набор современных мультимодальных моделей от китайцев. Короче говоря, генератор-пониматор изображений и видео. Недиффузный, генерирует предсказывая следующий токен, то есть, мог бы работать быстрее чем диффузные генераторы, но нет - 13 минут на одну картинку на H100
Умеет продлевать видео, может имитировать некоторые аспекты окружающей среды, людей и животных в физическом мире.
Код
Демо
#text2image #text2video #video2video #videoextension
Новый набор современных мультимодальных моделей от китайцев. Короче говоря, генератор-пониматор изображений и видео. Недиффузный, генерирует предсказывая следующий токен, то есть, мог бы работать быстрее чем диффузные генераторы, но нет - 13 минут на одну картинку на H100
Умеет продлевать видео, может имитировать некоторые аспекты окружающей среды, людей и животных в физическом мире.
Код
Демо
#text2image #text2video #video2video #videoextension
👍7
ebook2audiobook
Конвертер электронных книг в аудиокниги.
📖 Преобразует электронные книги в текстовый формат с помощью Calibre.
📚 Разбивает электронную книгу на главы для упорядоченного воспроизведения звука.
🎙 Высококачественное преобразование текста в речь с помощью Coqui XTTS.
🗣 Дополнительно - клонирование голоса с помощью вашего собственного голосового файла.
⭐️ Поддерживает несколько языков (по умолчанию английский), есть русский
⭐️⭐️ Предназначен для работы с 4 ГБ RAM.
Код
Демо
#text2speech #ebook2audiobook
Конвертер электронных книг в аудиокниги.
📖 Преобразует электронные книги в текстовый формат с помощью Calibre.
📚 Разбивает электронную книгу на главы для упорядоченного воспроизведения звука.
🎙 Высококачественное преобразование текста в речь с помощью Coqui XTTS.
🗣 Дополнительно - клонирование голоса с помощью вашего собственного голосового файла.
⭐️ Поддерживает несколько языков (по умолчанию английский), есть русский
⭐️⭐️ Предназначен для работы с 4 ГБ RAM.
Код
Демо
#text2speech #ebook2audiobook
👍24
Announcing FLUX1.1 [pro] and the BFL API
FLUX1.1 [pro] (он же - темная лошадка blueberry на image arena) втрое быстрее чем нынешний FLUX1[pro]
Будет доступен на together.ai, Replicate, fal.ai и Freepik.com
BFL API
#text2image #api #news
FLUX1.1 [pro] (он же - темная лошадка blueberry на image arena) втрое быстрее чем нынешний FLUX1[pro]
Будет доступен на together.ai, Replicate, fal.ai и Freepik.com
BFL API
#text2image #api #news
👍7👏2❤1
Нейронавт | Нейросети в творчестве
Announcing FLUX1.1 [pro] and the BFL API FLUX1.1 [pro] (он же - темная лошадка blueberry на image arena) втрое быстрее чем нынешний FLUX1[pro] Будет доступен на together.ai, Replicate, fal.ai и Freepik.com BFL API #text2image #api #news
Уже можно ходить по ссылкам и генерить картинки.
Го тестить новый flux!
Го тестить новый flux!
❤1
Исследование, проведенное на 800 программистах, показало отсутствие особого улучшения от использования Copilot на GitHub. Время на запросы и пропускная способность не стали лучше.
Разработчики, которые пользовались Copilot, допустили на 41% больше ошибок. И Copilot не помогает от эмоционального выгорания.
Почти 30% нового кода написано с помощью искусственного интеллекта. Но похоже что программисты могут стать ленивыми и зависимыми от ИИ. А код, созданный с помощью ИИ, сложно понять и починить.
#news #coding
Разработчики, которые пользовались Copilot, допустили на 41% больше ошибок. И Copilot не помогает от эмоционального выгорания.
Почти 30% нового кода написано с помощью искусственного интеллекта. Но похоже что программисты могут стать ленивыми и зависимыми от ИИ. А код, созданный с помощью ИИ, сложно понять и починить.
#news #coding
TechSpot
AI coding assistants do not boost productivity or prevent burnout, study finds
The study tracked around 800 developers, comparing their output with and without GitHub's Copilot coding assistant over three-month periods. Surprisingly, when measuring key metrics like pull request...
💯5👍4😁2❤1🎃1
This media is not supported in your browser
VIEW IN TELEGRAM
Movie Gen: A Cast of Media Foundation Models
Видеогенератор от Meta AI
30B модель генерит 16-секундные видео в 1080p, 16FPS
13B модель для генерации видео одновременно со звуком в 48kHz.
Редактирование видео по тексту и персонализация заданным фото.
Попробовать (нужен US акк фейсбук или инста)
Пост одного из разработчиков в тг!
#text2video #personalization #videoediting #video2video
Видеогенератор от Meta AI
30B модель генерит 16-секундные видео в 1080p, 16FPS
13B модель для генерации видео одновременно со звуком в 48kHz.
Редактирование видео по тексту и персонализация заданным фото.
Попробовать (нужен US акк фейсбук или инста)
Пост одного из разработчиков в тг!
#text2video #personalization #videoediting #video2video
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
BlinkShot
Flux1.1 [pro] без реги
Инференс на Together AI.
Авторы планируют прикрутить рульки разрешения и количества шагов.
После несколькитх попыток он мне сказал что мой лимит исчерпан, мол, возращайся через 24 часа.
Вообще он типа в реальном времени должен обновлять картинку, пока вы пишете промпт, как в Krea.ai. Но сейчас все его осадили, он вообще не справляется с нагрузкой
Код в опенсорсе на гитхабе. Но вы же понимаете, если захотите запустить то вам понадобится API ключик
Код
#flux #text2image
Flux1.1 [pro] без реги
Инференс на Together AI.
Авторы планируют прикрутить рульки разрешения и количества шагов.
После несколькитх попыток он мне сказал что мой лимит исчерпан, мол, возращайся через 24 часа.
Вообще он типа в реальном времени должен обновлять картинку, пока вы пишете промпт, как в Krea.ai. Но сейчас все его осадили, он вообще не справляется с нагрузкой
Код в опенсорсе на гитхабе. Но вы же понимаете, если захотите запустить то вам понадобится API ключик
Код
#flux #text2image
🔥6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
NeuLS: Neural Light Spheres for Implicit Image Stitching and View Synthesis
Преобразует панорамный снимок с андроида с данными гироскопа в интерактивную широкоугольную реконструкцию с параллаксом, отражениями и динамикой сцены. Рендерит 1080p в реальном времени
Код ждем
#image2scene #panorama2scene
Преобразует панорамный снимок с андроида с данными гироскопа в интерактивную широкоугольную реконструкцию с параллаксом, отражениями и динамикой сцены. Рендерит 1080p в реальном времени
Код ждем
#image2scene #panorama2scene
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
CogStudio
GUI для запуска CogVideo - опенсорсного видеогенератора. Не хотите разбираться в ComfyUI - вам сюда.
Видео по тексту, по изображению, по видео и продление видео
#text2video #image2video #video2video #videoextension
GUI для запуска CogVideo - опенсорсного видеогенератора. Не хотите разбираться в ComfyUI - вам сюда.
Видео по тексту, по изображению, по видео и продление видео
#text2video #image2video #video2video #videoextension
🔥6
CogVideoX-Fun
Но лучше заморочиться и установить это если у вас есть 24Гб VRAM.
Это файнтюн CogVideoX
ComfyUI
#text2video #image2video #video2video
Но лучше заморочиться и установить это если у вас есть 24Гб VRAM.
Это файнтюн CogVideoX
ComfyUI
#text2video #image2video #video2video
👍5
😁21❤10👍1
This media is not supported in your browser
VIEW IN TELEGRAM
dzine
Помните сервис с кучей функций для работы с картинками Stylar? Они переименовались в Dzine, добавили фич. Прислали письмо с предложением опробовать их Image-to-video генератор.
А чтобы его опробовать надо подписаться на недельную триалку, что мне делать неохота сейчас.
Есть кто смелый попробовать?
Ну и да, у них все еще есть рефералка, ссылка вверху реферральная
#image2video #imageediting #inpainting #outpainting
Помните сервис с кучей функций для работы с картинками Stylar? Они переименовались в Dzine, добавили фич. Прислали письмо с предложением опробовать их Image-to-video генератор.
А чтобы его опробовать надо подписаться на недельную триалку, что мне делать неохота сейчас.
Есть кто смелый попробовать?
Ну и да, у них все еще есть рефералка, ссылка вверху реферральная
#image2video #imageediting #inpainting #outpainting
👍3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел очень крутую работу от Nvidia.
Все эти генераторы 3Д, как правило, используют для обучения датасет Objaverse, в котором очень много шлака и превалируют 3Д-сканы и фотограмметрия с ужасными, плотными, хаотическими сетками.
Генерация с помощью score distillation sampling (SDS) и пр. начисто теряет любые данные о связи вертексов в исходных данных, а использование marching cubes порождает "обмылки" и вот эту вот всю ацкую топологию.
Мне, кстати, уже давно приходила в голову идея обучения 3Д-генератора на текстовом описании мешей, с сохранением и использованием информации о топологии.
Тут я выпендрюсь и процитирую статью:
Недавно в нескольких подходах были предприняты попытки токенизировать сетки в одномерные последовательности и использовать авторегрессивные модели для прямой генерации сеток. В частности, MeshGPT предлагает эмпирически сортировать треугольные грани и применять вариационный автокодер с векторной квантификацией (VQ-VAE) для токенизации сетки. MeshXL напрямую склеивает координаты вершин и не использует никакого сжатия, кроме дискретизации вершин. Однако такие подходы часто испытывают трудности с обобщением за пределами области обучения при обучении на изображениях одного вида.
Нвидия сделали авторегрессивный автокодер (ArAE), который сжимает треугольные сетки переменной длины в латентные коды фиксированной длины. Это латентное пространство может быть использовано для обучения моделей диффузии, обусловленных другими модальностями. Это позволяет EdgeRunner генерировать разнообразные, высококачественные художественные сетки, содержащие до 4 000 граней и вершин - в результате получаются последовательности вдвое длиннее и в четыре раза выше по разрешению по сравнению с предыдущими методами.
Но самое главное, поглядите, как происходит процесс детокенизации, то есть перевода 1Д-токенов(эмбедингов) обратно в 3Д пространство! Это ж латентный моделинг!
Сетка как бы моделит форму не плевком из облака точек, а выстраивая топологию.
Выглядит отлично.
Очень круто сделан сайт проекта, я скачал 3Д-модельки, покрутил, не врут, топология как на сайте.
Поглядите там, как идет процесс нейромоделинга.
Ну, за моделлеров, наконец-то.
Хотя... кода нет. Отставить чокаться. И возможно, не будет, ибо это явно просится в OmniVerse от Nvidia, который явно не открытый проект.
https://research.nvidia.com/labs/dir/edgerunner/
@cgevent
Все эти генераторы 3Д, как правило, используют для обучения датасет Objaverse, в котором очень много шлака и превалируют 3Д-сканы и фотограмметрия с ужасными, плотными, хаотическими сетками.
Генерация с помощью score distillation sampling (SDS) и пр. начисто теряет любые данные о связи вертексов в исходных данных, а использование marching cubes порождает "обмылки" и вот эту вот всю ацкую топологию.
Мне, кстати, уже давно приходила в голову идея обучения 3Д-генератора на текстовом описании мешей, с сохранением и использованием информации о топологии.
Тут я выпендрюсь и процитирую статью:
Недавно в нескольких подходах были предприняты попытки токенизировать сетки в одномерные последовательности и использовать авторегрессивные модели для прямой генерации сеток. В частности, MeshGPT предлагает эмпирически сортировать треугольные грани и применять вариационный автокодер с векторной квантификацией (VQ-VAE) для токенизации сетки. MeshXL напрямую склеивает координаты вершин и не использует никакого сжатия, кроме дискретизации вершин. Однако такие подходы часто испытывают трудности с обобщением за пределами области обучения при обучении на изображениях одного вида.
Нвидия сделали авторегрессивный автокодер (ArAE), который сжимает треугольные сетки переменной длины в латентные коды фиксированной длины. Это латентное пространство может быть использовано для обучения моделей диффузии, обусловленных другими модальностями. Это позволяет EdgeRunner генерировать разнообразные, высококачественные художественные сетки, содержащие до 4 000 граней и вершин - в результате получаются последовательности вдвое длиннее и в четыре раза выше по разрешению по сравнению с предыдущими методами.
Но самое главное, поглядите, как происходит процесс детокенизации, то есть перевода 1Д-токенов(эмбедингов) обратно в 3Д пространство! Это ж латентный моделинг!
Сетка как бы моделит форму не плевком из облака точек, а выстраивая топологию.
Выглядит отлично.
Очень круто сделан сайт проекта, я скачал 3Д-модельки, покрутил, не врут, топология как на сайте.
Поглядите там, как идет процесс нейромоделинга.
Ну, за моделлеров, наконец-то.
Хотя... кода нет. Отставить чокаться. И возможно, не будет, ибо это явно просится в OmniVerse от Nvidia, который явно не открытый проект.
https://research.nvidia.com/labs/dir/edgerunner/
@cgevent
❤13
Опубликован код и демо генератора глубины и нормалей Lotus
+можно запускать на replicate по API
Код
Демо глубина
Демо нормали
API
#image2depth #image2normal
+можно запускать на replicate по API
Код
Демо глубина
Демо нормали
API
#image2depth #image2normal
🔥12❤1
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
И сразу конкурент от Apple
Генерирует карту глубины с нативным выходным разрешением 1536×1536 за 0,3 секунды на V100
Код
#image2depth
И сразу конкурент от Apple
Генерирует карту глубины с нативным выходным разрешением 1536×1536 за 0,3 секунды на V100
Код
#image2depth
🔥13🤯2👍1