Знаете что выяснил?
В интернете трудно найти фото настоящих черепашек-ниндзя.
Смейтесь-смейтесь. Больше 50% выдачи — ИИ-генерации. Еще какая-то часть - скриншоты из всяких новоделов.
Вот безобразие-то какое творится, думаю. Взял и внес свою лепту
#Neuronaut_art
В интернете трудно найти фото настоящих черепашек-ниндзя.
Смейтесь-смейтесь. Больше 50% выдачи — ИИ-генерации. Еще какая-то часть - скриншоты из всяких новоделов.
Вот безобразие-то какое творится, думаю. Взял и внес свою лепту
#Neuronaut_art
😁27❤1
This media is not supported in your browser
VIEW IN TELEGRAM
RND1: Simple, Scalable AR-to-Diffusion Conversion
Экспериментальная диффузная языковая модель на 30B параметров с 3B активными и качеством как у больших GPT.
Модель преобразована из авторегрессионной Qwen3-30BA3B и дообучена на 500B токенах для полного диффузного поведения. При этом модель сохраняет знания, которые уже есть в исходной модели.
Получается Diffusion Language Model (DLM), аналог диффузионных моделей, генерирующих картинки, только здесь она генерирует предложения.
Напомню, автогрессионные модели пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, проявляя текст из шума.
Код
HF
#llm #MoE #research
Экспериментальная диффузная языковая модель на 30B параметров с 3B активными и качеством как у больших GPT.
Модель преобразована из авторегрессионной Qwen3-30BA3B и дообучена на 500B токенах для полного диффузного поведения. При этом модель сохраняет знания, которые уже есть в исходной модели.
Получается Diffusion Language Model (DLM), аналог диффузионных моделей, генерирующих картинки, только здесь она генерирует предложения.
Напомню, автогрессионные модели пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, проявляя текст из шума.
Код
HF
#llm #MoE #research
👍12❤4
На хиггсфилде анонсирован видеогенератор от Гугла VEO3.1
Нативное разрешенеи 1080p, хронометраж 30+ секунд
Записаться в вейтлист - зная хиггсфилд, можно не записываться если у вас нет подписки
#news
Нативное разрешенеи 1080p, хронометраж 30+ секунд
Записаться в вейтлист - зная хиггсфилд, можно не записываться если у вас нет подписки
#news
😁6❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Gling AI
ИИ-монтажер видео. Можно скачать плагин к своей монтажке или пользоваться в браузере.
На бесплатном тарифе:
- Обработка до 1 часа медиаконтента в месяц
- Экспорт видео в формате MP4 с водяным знаком и аудио в формате MP3
- Удаление неудачных дублей
- Автоматическое удаление пауз
- Автоматическое удаление слов-паразитов
- Генерация заголовков и глав для YouTube
- Предложения по следующим видео
- AI-субтитры
- Автофрейминг (jump cut zoom)
- Многокамерный монтаж
- Удаление шумов из аудио
#videoediting
ИИ-монтажер видео. Можно скачать плагин к своей монтажке или пользоваться в браузере.
На бесплатном тарифе:
- Обработка до 1 часа медиаконтента в месяц
- Экспорт видео в формате MP4 с водяным знаком и аудио в формате MP3
- Удаление неудачных дублей
- Автоматическое удаление пауз
- Автоматическое удаление слов-паразитов
- Генерация заголовков и глав для YouTube
- Предложения по следующим видео
- AI-субтитры
- Автофрейминг (jump cut zoom)
- Многокамерный монтаж
- Удаление шумов из аудио
#videoediting
🤔8❤1👍1👎1
Опубликован код и веса сегнемнтного генератора 3D моделей OmniPart на основе Trellis
Гитхаб
HF
Демо
#gaussian #3d #imageto3d
Гитхаб
HF
Демо
#gaussian #3d #imageto3d
Telegram
Нейронавт | Нейросети в творчестве
OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion
Новый генератор 3D моделей по картинке от анонимов. Разбивает модель на части, генерирует по частям. Разбивку можно редактировать
Под капотом гауссианы
#тестбендера провалил.…
Новый генератор 3D моделей по картинке от анонимов. Разбивает модель на части, генерирует по частям. Разбивку можно редактировать
Под капотом гауссианы
#тестбендера провалил.…
🔥6
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Segment Anything 3 тихо появился на ICLR в виде статьи
Первая версия SAM позволяла щелкнуть по объекту, чтобы сегментировать его.
В SAM 2 были добавлены видео и память.
Теперь SAM 3 говорит: просто опишите, что вы хотите - «желтый школьный автобус», «полосатый кот», «красное яблоко» — и он найдет и сегментирует каждый экземпляр этого объекта на изображениях или в видео.
Это как будто сегментация наконец-то научилась языку, но в обоснованной, минимальной форме, просто оперируя концепциями.
Короткие существительные, образцы изображений или и то, и другое.
Вы озвучиваете объект, он понимает, что вы имеете в виду, и рисует границу везде, где она появляется.
За этим стоит огромный механизм обработки данных: 4 миллиона уникальных концепций, 52 миллиона проверенных масок, созданных людьми и LLM, проверяющими работу друг друга.
Результат: примерно в 2 раза лучше, чем SAM 2, распознавание, близкое к человеческому, на тестах с открытым словарем и скорость в реальном времени.
https://openreview.net/forum?id=r35clVtGzw
@cgevent
Первая версия SAM позволяла щелкнуть по объекту, чтобы сегментировать его.
В SAM 2 были добавлены видео и память.
Теперь SAM 3 говорит: просто опишите, что вы хотите - «желтый школьный автобус», «полосатый кот», «красное яблоко» — и он найдет и сегментирует каждый экземпляр этого объекта на изображениях или в видео.
Это как будто сегментация наконец-то научилась языку, но в обоснованной, минимальной форме, просто оперируя концепциями.
Короткие существительные, образцы изображений или и то, и другое.
Вы озвучиваете объект, он понимает, что вы имеете в виду, и рисует границу везде, где она появляется.
За этим стоит огромный механизм обработки данных: 4 миллиона уникальных концепций, 52 миллиона проверенных масок, созданных людьми и LLM, проверяющими работу друг друга.
Результат: примерно в 2 раза лучше, чем SAM 2, распознавание, близкое к человеческому, на тестах с открытым словарем и скорость в реальном времени.
https://openreview.net/forum?id=r35clVtGzw
@cgevent
🔥13❤1👍1
Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation
Puffin — унифицированная мультимодальная модель для работы с камерой. Понимает визуал с точки зрения камеры. Объединяет задачи понимания и генерации:
— связывает визуальные подсказки с фотографическими терминами
— предсказывает параметры камеры
— генерирует виды с учётом пространственной согласованности
— описывает сцены по ориентации и начальному виду
— предлагает улучшить эстетику фото через корректировку параметров камеры
Puffin пригоден для генерации видео с заданными параметрами камеры, создания длинных и панорамных сцен путём итеративной генерации видов и их подачи в модель, корректировки параметров камеры для лучшей эстетики
Закинул в него кадр из ЗВ на анализ, вот результат
Код
HF
Демо
#vlm #captioning #camera #video2pose #video2camera #text2video
Puffin — унифицированная мультимодальная модель для работы с камерой. Понимает визуал с точки зрения камеры. Объединяет задачи понимания и генерации:
— связывает визуальные подсказки с фотографическими терминами
— предсказывает параметры камеры
— генерирует виды с учётом пространственной согласованности
— описывает сцены по ориентации и начальному виду
— предлагает улучшить эстетику фото через корректировку параметров камеры
Puffin пригоден для генерации видео с заданными параметрами камеры, создания длинных и панорамных сцен путём итеративной генерации видов и их подачи в модель, корректировки параметров камеры для лучшей эстетики
Закинул в него кадр из ЗВ на анализ, вот результат
<think> На снимке изображены две фигуры с фонарями в руках, одна из которых излучает яркий красный луч, а другая - синий, создавая динамичный визуальный эффект. Горизонтальная ориентация близка к горизонтальной, поскольку линия горизонта относительно прямая и параллельна нижнему краю кадра, что указывает на стабильное положение камеры. Вертикальная ориентация показывает небольшой наклон вверх, о чем свидетельствует небольшой угол наклона лучей и расположение фигур, что позволяет предположить, что камера слегка наклонена вверх, чтобы охватить всю высоту фигур и лучей. Поле зрения - крупным планом, так как фигуры и их лучи доминируют в кадре, с минимальными деталями фона, подчеркивающими взаимодействие и влияние лучей на сцену.</think><answer>-0.0037, 0.1587, 0.4600</answer>
Код
HF
Демо
#vlm #captioning #camera #video2pose #video2camera #text2video
🔥7❤4⚡3👍1😱1
jax-raft
Порт интерполятора кадров RAFT с pytorch на JAX/Flax, должен работать быстрее.
Чекпойнты тоже портированы
#frameinterpolation #opticalflow #slowmotion
Порт интерполятора кадров RAFT с pytorch на JAX/Flax, должен работать быстрее.
Чекпойнты тоже портированы
#frameinterpolation #opticalflow #slowmotion
GitHub
GitHub - alebeck/jax-raft: JAX/Flax port of the RAFT optical flow estimator
JAX/Flax port of the RAFT optical flow estimator. Contribute to alebeck/jax-raft development by creating an account on GitHub.
👍4😁1
Instant4D: 4D Gaussian Splatting in Minutes
Быстрая (за несколько минут) реконструкция монокулярных видео с использованием 4D-представления.
Авторы придумали как сократить количество гауссиан на 92% ну и прочие ништяки, увеличив скорость реконструкции объемного видео в 30 раз. Под капотом прикручены DepthAnything и RAFT
Код
#image2scene #videoto4d #videoto3d #gaussian #4d #video2scene
Быстрая (за несколько минут) реконструкция монокулярных видео с использованием 4D-представления.
Авторы придумали как сократить количество гауссиан на 92% ну и прочие ништяки, увеличив скорость реконструкции объемного видео в 30 раз. Под капотом прикручены DepthAnything и RAFT
Код
#image2scene #videoto4d #videoto3d #gaussian #4d #video2scene
🔥3❤1
Media is too big
VIEW IN TELEGRAM
StreamingVLM: Real-Time Understanding for Infinite Video Streams
Визуально-языковая модель для понимания бесконечного видеопотока в реальном времени.
Работает со скоростью до 8 кадров в секунду на одном H100
Гитхаб
Демо
#VLM #captioning #assistant #realtime #streaming
Визуально-языковая модель для понимания бесконечного видеопотока в реальном времени.
Работает со скоростью до 8 кадров в секунду на одном H100
Гитхаб
Демо
#VLM #captioning #assistant #realtime #streaming
👍6❤2🔥1
FaceCLIP
ByteDance выпустил новый энкодер для персонализации картинок
Ну и в том же репозитории лежит FaceT5-FLUX, хотя в папире нет о нем никакого упоминания
Вообще карточка модели весьма кривая - ссылка на папиру ведет на InfU, ссылка на Гитхаб ведет на 404. Подождем сайт проекта если он будет и код.
Спасибо @john_eod
#text2image #personalization #sdxl #flux
ByteDance выпустил новый энкодер для персонализации картинок
FaceCLIP с SDXL обеспечивает исключительные результаты в области сохранения идентификационных данных, выравнивания текста и качества изображения
Ну и в том же репозитории лежит FaceT5-FLUX, хотя в папире нет о нем никакого упоминания
Вообще карточка модели весьма кривая - ссылка на папиру ведет на InfU, ссылка на Гитхаб ведет на 404. Подождем сайт проекта если он будет и код.
Спасибо @john_eod
#text2image #personalization #sdxl #flux
❤4🔥3
Я играл с Reve и выиграл уперся в суточный лимит. Его хватило всего на 6 запросов. Думаю не у всех будет 6 потому что там думалка под капотом и она расходует разное количество токенов на разные запросы.
А раньше было прям очень много, ощущение что лимита нет.
Не планируйте бесплатно вершить великие дела на Reve
#news
А раньше было прям очень много, ощущение что лимита нет.
Не планируйте бесплатно вершить великие дела на Reve
#news
Telegram
Нейронавт | Нейросети в творчестве
Reve
Обновился сервис создания и редактирования изображений. Теперь это контекстный редактор, конкурент Банана, QIE и иже с ними. Умеет все то что умеют конкуренты, но у него еще есть GUI
— создаёт и ремиксит изображения
— редактирует изображения через…
Обновился сервис создания и редактирования изображений. Теперь это контекстный редактор, конкурент Банана, QIE и иже с ними. Умеет все то что умеют конкуренты, но у него еще есть GUI
— создаёт и ремиксит изображения
— редактирует изображения через…
😐4🤷♂1
В Kandinsky 5 добавили поддержку SDPA - теперь можно использовать Flash attention.
Добавили поддержку Magcache для чекпойнтов sft и nocfg.
Сократили потребление памяти в VAE
Говорят, теперь весь Кандинский влазит в 24 ГБ
Гитхаб
#text2video
Добавили поддержку Magcache для чекпойнтов sft и nocfg.
Сократили потребление памяти в VAE
Говорят, теперь весь Кандинский влазит в 24 ГБ
Гитхаб
#text2video
Telegram
Нейронавт | Нейросети в творчестве
Kandinsky 5.0 Video Lite
Сбер выпустил видеогенератор в опенсорс.
2B параметров, 768 x 512, до 10 сек
Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.
За всего 2B параметров…
Сбер выпустил видеогенератор в опенсорс.
2B параметров, 768 x 512, до 10 сек
Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.
За всего 2B параметров…
🔥9❤3👍3⚡2
TAG: Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling
Метод улучшения работы диффузионных моделей и снижения количества галлюцинаций, направляет генерацию к наиболее вероятным областям.
Представляет собой адаптер, не требует дообучения.
Прикручено к SD1.5, SD2.1, SDXL, SD3
Демо
#optimization #plugin #text2image
Метод улучшения работы диффузионных моделей и снижения количества галлюцинаций, направляет генерацию к наиболее вероятным областям.
Представляет собой адаптер, не требует дообучения.
Прикручено к SD1.5, SD2.1, SDXL, SD3
Демо
#optimization #plugin #text2image
🔥6👍1