Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.74K videos
41 files
4.78K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Emu3: Next-Token Prediction is All You Need

Новый набор современных мультимодальных моделей от китайцев. Короче говоря, генератор-пониматор изображений и видео. Недиффузный, генерирует предсказывая следующий токен, то есть, мог бы работать быстрее чем диффузные генераторы, но нет - 13 минут на одну картинку на H100
Умеет продлевать видео, может имитировать некоторые аспекты окружающей среды, людей и животных в физическом мире.

Код
Демо

#text2image #text2video #video2video #videoextension
👍7
ebook2audiobook

Конвертер электронных книг в аудиокниги.

📖 Преобразует электронные книги в текстовый формат с помощью Calibre.
📚 Разбивает электронную книгу на главы для упорядоченного воспроизведения звука.
🎙 Высококачественное преобразование текста в речь с помощью Coqui XTTS.
🗣 Дополнительно - клонирование голоса с помощью вашего собственного голосового файла.
⭐️ Поддерживает несколько языков (по умолчанию английский), есть русский
⭐️⭐️ Предназначен для работы с 4 ГБ RAM.

Код
Демо

#text2speech #ebook2audiobook
👍24
Announcing FLUX1.1 [pro] and the BFL API

FLUX1.1 [pro] (он же - темная лошадка blueberry на image arena) втрое быстрее чем нынешний FLUX1[pro]

Будет доступен на together.ai, Replicate, fal.ai и Freepik.com

BFL API

#text2image #api #news
👍7👏21
Исследование, проведенное на 800 программистах, показало отсутствие особого улучшения от использования Copilot на GitHub. Время на запросы и пропускная способность не стали лучше.

Разработчики, которые пользовались Copilot, допустили на 41% больше ошибок. И Copilot не помогает от эмоционального выгорания.

Почти 30% нового кода написано с помощью искусственного интеллекта. Но похоже что программисты могут стать ленивыми и зависимыми от ИИ. А код, созданный с помощью ИИ, сложно понять и починить.

#news #coding
💯5👍4😁21🎃1
This media is not supported in your browser
VIEW IN TELEGRAM
Movie Gen: A Cast of Media Foundation Models

Видеогенератор от Meta AI
30B модель генерит 16-секундные видео в 1080p, 16FPS

13B модель для генерации видео одновременно со звуком в 48kHz.

Редактирование видео по тексту и персонализация заданным фото.

Попробовать (нужен US акк фейсбук или инста)

Пост одного из разработчиков в тг!

#text2video #personalization #videoediting #video2video
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
BlinkShot

Flux1.1 [pro] без реги
Инференс на Together AI.
Авторы планируют прикрутить рульки разрешения и количества шагов.

После несколькитх попыток он мне сказал что мой лимит исчерпан, мол, возращайся через 24 часа.

Вообще он типа в реальном времени должен обновлять картинку, пока вы пишете промпт, как в Krea.ai. Но сейчас все его осадили, он вообще не справляется с нагрузкой

Код в опенсорсе на гитхабе. Но вы же понимаете, если захотите запустить то вам понадобится API ключик

Код

#flux #text2image
🔥6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
NeuLS: Neural Light Spheres for Implicit Image Stitching and View Synthesis

Преобразует панорамный снимок с андроида с данными гироскопа в интерактивную широкоугольную реконструкцию с параллаксом, отражениями и динамикой сцены. Рендерит 1080p в реальном времени

Код ждем

#image2scene #panorama2scene
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
CogStudio

GUI для запуска CogVideo - опенсорсного видеогенератора. Не хотите разбираться в ComfyUI - вам сюда.

Видео по тексту, по изображению, по видео и продление видео

#text2video #image2video #video2video #videoextension
🔥6
CogVideoX-Fun

Но лучше заморочиться и установить это если у вас есть 24Гб VRAM.

Это файнтюн CogVideoX

ComfyUI

#text2video #image2video #video2video
👍5
Вы хотели новостей? фигушки. Админ заболел и сдает проект.
Держите мемы

#humor
😁2110👍1
This media is not supported in your browser
VIEW IN TELEGRAM
dzine

Помните сервис с кучей функций для работы с картинками Stylar? Они переименовались в Dzine, добавили фич. Прислали письмо с предложением опробовать их Image-to-video генератор.

А чтобы его опробовать надо подписаться на недельную триалку, что мне делать неохота сейчас.
Есть кто смелый попробовать?

Ну и да, у них все еще есть рефералка, ссылка вверху реферральная

#image2video #imageediting #inpainting #outpainting
👍3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел очень крутую работу от Nvidia.

Все эти генераторы 3Д, как правило, используют для обучения датасет Objaverse, в котором очень много шлака и превалируют 3Д-сканы и фотограмметрия с ужасными, плотными, хаотическими сетками.
Генерация с помощью score distillation sampling (SDS) и пр. начисто теряет любые данные о связи вертексов в исходных данных, а использование marching cubes порождает "обмылки" и вот эту вот всю ацкую топологию.

Мне, кстати, уже давно приходила в голову идея обучения 3Д-генератора на текстовом описании мешей, с сохранением и использованием информации о топологии.

Тут я выпендрюсь и процитирую статью:
Недавно в нескольких подходах были предприняты попытки токенизировать сетки в одномерные последовательности и использовать авторегрессивные модели для прямой генерации сеток. В частности, MeshGPT предлагает эмпирически сортировать треугольные грани и применять вариационный автокодер с векторной квантификацией (VQ-VAE) для токенизации сетки. MeshXL напрямую склеивает координаты вершин и не использует никакого сжатия, кроме дискретизации вершин. Однако такие подходы часто испытывают трудности с обобщением за пределами области обучения при обучении на изображениях одного вида.

Нвидия сделали авторегрессивный автокодер (ArAE), который сжимает треугольные сетки переменной длины в латентные коды фиксированной длины. Это латентное пространство может быть использовано для обучения моделей диффузии, обусловленных другими модальностями. Это позволяет EdgeRunner генерировать разнообразные, высококачественные художественные сетки, содержащие до 4 000 граней и вершин - в результате получаются последовательности вдвое длиннее и в четыре раза выше по разрешению по сравнению с предыдущими методами.

Но самое главное, поглядите, как происходит процесс детокенизации, то есть перевода 1Д-токенов(эмбедингов) обратно в 3Д пространство! Это ж латентный моделинг!

Сетка как бы моделит форму не плевком из облака точек, а выстраивая топологию.

Выглядит отлично.

Очень круто сделан сайт проекта, я скачал 3Д-модельки, покрутил, не врут, топология как на сайте.
Поглядите там, как идет процесс нейромоделинга.

Ну, за моделлеров, наконец-то.

Хотя... кода нет. Отставить чокаться. И возможно, не будет, ибо это явно просится в OmniVerse от Nvidia, который явно не открытый проект.
https://research.nvidia.com/labs/dir/edgerunner/

@cgevent
13
всем кто репостит - спасибо за репосты!
Вместе мы сила
33🍾10🔥53
Опубликован код и демо генератора глубины и нормалей Lotus
+можно запускать на replicate по API

Код
Демо глубина
Демо нормали
API

#image2depth #image2normal
🔥121
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

И сразу конкурент от Apple
Генерирует карту глубины с нативным выходным разрешением 1536×1536 за 0,3 секунды на V100

Код

#image2depth
🔥13🤯2👍1