⚡️DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео
DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео.
В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.
DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.
🟡Страница проекта
🖥GitHub
🟡Arxiv
@Devsp — Подписаться
DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео.
В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.
DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.
🟡Страница проекта
🖥GitHub
🟡Arxiv
@Devsp — Подписаться
🧐 Aim: Простой и удобный open-source трекер для отслеживания ML-экспериментов
Aim - это инструмент, поддерживающий отображение большого количества тренировочных прогонов (до 10.000 training runs).
Он предоставляет возможность аналитики и сравнения выполненных запусков тренировок моделей, а его SDK позволяет программно получать доступ к отслеживаемым метаданным для последующей автоматизации в Jupyter Notebook.
🟡Demos: Machine translation experiments | Lightweight-GAN experiments | FastSpeech 2 experiments | Simple MNIST
🖥GitHub
🟡Документация
@Devsp — Подписаться
Aim - это инструмент, поддерживающий отображение большого количества тренировочных прогонов (до 10.000 training runs).
Он предоставляет возможность аналитики и сравнения выполненных запусков тренировок моделей, а его SDK позволяет программно получать доступ к отслеживаемым метаданным для последующей автоматизации в Jupyter Notebook.
🟡Demos: Machine translation experiments | Lightweight-GAN experiments | FastSpeech 2 experiments | Simple MNIST
🖥GitHub
🟡Документация
@Devsp — Подписаться
GitHub
GitHub - aimhubio/aim: Aim 💫 — An easy-to-use & supercharged open-source experiment tracker.
Aim 💫 — An easy-to-use & supercharged open-source experiment tracker. - aimhubio/aim
🔈AST: Audio Spectrogram Transformer
Audio Spectrogram Transformer применяет Vision Transformer к аудио, превращая аудио в изображение (спектрограмму).
Модель получает самые современные результаты для классификации аудио.
🤗 Hugging Face
🖥 GitHub
🟡 Архив
@Devsp — Подписаться
Audio Spectrogram Transformer применяет Vision Transformer к аудио, превращая аудио в изображение (спектрограмму).
Модель получает самые современные результаты для классификации аудио.
🤗 Hugging Face
🖥 GitHub
🟡 Архив
@Devsp — Подписаться
🥸OpenVid-1M: крупномасштабный высококачественный набор данных для преобразования текста в видео
Генерация текста в видео (T2V) недавно привлекла значительное внимание благодаря большой мультимодальности модели Sora.
Однако генерация T2V по-прежнему сталкивается с важными проблемами.
Этот набор данных открытого сценария содержит более 1 миллиона пар текст-видео, что облегчает исследования по генерации T2V.
Обширные эксперименты и исследования абляции подтверждают превосходство OpenVid-1M над предыдущими наборами данных и эффективность нашего MVDiT.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Генерация текста в видео (T2V) недавно привлекла значительное внимание благодаря большой мультимодальности модели Sora.
Однако генерация T2V по-прежнему сталкивается с важными проблемами.
Этот набор данных открытого сценария содержит более 1 миллиона пар текст-видео, что облегчает исследования по генерации T2V.
Обширные эксперименты и исследования абляции подтверждают превосходство OpenVid-1M над предыдущими наборами данных и эффективность нашего MVDiT.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🧐Make-An-Agent: генератор обобщающей политической сети с диффузией, обусловленной поведением
Обученная на контрольных точках сети политики и их соответствующих траекториях, модель генерации демонстрирует замечательную универсальность и масштабируемость на нескольких задачах и имеет сильную способность к обобщению на невидимых задачах для вывода хорошо выполняемых политик с использованием всего лишь нескольких демонстраций в качестве входных данных.
Модель демонстрирует ее эффективность и результативность в различных областях и задачах, включая различные цели, поведение и даже между различными манипуляторами роботов.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Обученная на контрольных точках сети политики и их соответствующих траекториях, модель генерации демонстрирует замечательную универсальность и масштабируемость на нескольких задачах и имеет сильную способность к обобщению на невидимых задачах для вывода хорошо выполняемых политик с использованием всего лишь нескольких демонстраций в качестве входных данных.
Модель демонстрирует ее эффективность и результативность в различных областях и задачах, включая различные цели, поведение и даже между различными манипуляторами роботов.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
⚙ VLMEvalKit: набор инструментов с открытым исходным кодом для оценки больших многомодальностей моделей
Набор инструментов призван предоставить удобную и всеобъемлющую структуру для исследователей и разработчиков для оценки существующих многомодальных моделей и публикации воспроизводимых результатов оценки.
Хотя набор инструментов в настоящее время в основном используется для оценки больших моделей на языке видения, его конструкция совместима с будущими обновлениями, которые включают дополнительные модальности, такие как аудио и видео.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Набор инструментов призван предоставить удобную и всеобъемлющую структуру для исследователей и разработчиков для оценки существующих многомодальных моделей и публикации воспроизводимых результатов оценки.
Хотя набор инструментов в настоящее время в основном используется для оценки больших моделей на языке видения, его конструкция совместима с будущими обновлениями, которые включают дополнительные модальности, такие как аудио и видео.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
huggingface.co
Paper page - VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality
Models
Models
Join the discussion on this paper page
❤1
😎VD3D: Укрощение больших видеодиффузионных трансформаторов для управления 3D-камерой
Новые методы демонстрируют возможность генерировать видео с управляемыми позами камеры; эти методы используют предварительно обученные модели диффузии на основе U-Net, которые явно разделяют пространственную и временную генерацию.
Подход демонстрирует современную производительность для управляемой генерации видео после тонкой настройки на наборе данных RealEstate10K.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Новые методы демонстрируют возможность генерировать видео с управляемыми позами камеры; эти методы используют предварительно обученные модели диффузии на основе U-Net, которые явно разделяют пространственную и временную генерацию.
Подход демонстрирует современную производительность для управляемой генерации видео после тонкой настройки на наборе данных RealEstate10K.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🔍BRIGHT: реалистичный и сложный тест для поиска информации с интенсивным рассуждением
BRIGHT, первый тест поиска текста, который требует интенсивного обоснования для поиска соответствующих документов.
Он создан на основе 1398 запросов реального мира, собранных из различных областей, полученных из естественных или тщательно отобранных человеческих данных.
Обширная оценка показывает, что даже самые современные модели поиска не плохо работают с ним.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
BRIGHT, первый тест поиска текста, который требует интенсивного обоснования для поиска соответствующих документов.
Он создан на основе 1398 запросов реального мира, собранных из различных областей, полученных из естественных или тщательно отобранных человеческих данных.
Обширная оценка показывает, что даже самые современные модели поиска не плохо работают с ним.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🦾 CLAY: Управляемая крупномасштабная генеративная модель для создания высококачественных 3D-ресурсов
CLAY — генератор 3D-геометрии и материалов, разработанный для легкого преобразования человеческого воображения в сложные 3D-цифровые структуры.
Он поддерживает классический ввод текста или изображения, а также элементы управления с поддержкой 3D из различных примитивов.
В частности, он использует нейронные поля для представления непрерывных и полных поверхностей и использует модуль генеративной геометрии с чистыми блоками трансформатора в скрытом пространстве.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
CLAY — генератор 3D-геометрии и материалов, разработанный для легкого преобразования человеческого воображения в сложные 3D-цифровые структуры.
Он поддерживает классический ввод текста или изображения, а также элементы управления с поддержкой 3D из различных примитивов.
В частности, он использует нейронные поля для представления непрерывных и полных поверхностей и использует модуль генеративной геометрии с чистыми блоками трансформатора в скрытом пространстве.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🗣PM-LLM-Benchmark: Оценка больших языковых моделей в задачах анализа процессов
PM-LLM-Benchmark — первый всеобъемлющий бенчмарк для PM, фокусирующийся на знаниях предметной области (специфичных для анализа процессов и специфичных для процессов) и на различных стратегиях внедрения.
Он полезен для выявления LLM, которые подходят для задач анализа процессов, необходимы дальнейшие исследования для преодоления предвзятости оценки и проведения более тщательного ранжирования конкурентоспособных LLM.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
PM-LLM-Benchmark — первый всеобъемлющий бенчмарк для PM, фокусирующийся на знаниях предметной области (специфичных для анализа процессов и специфичных для процессов) и на различных стратегиях внедрения.
Он полезен для выявления LLM, которые подходят для задач анализа процессов, необходимы дальнейшие исследования для преодоления предвзятости оценки и проведения более тщательного ранжирования конкурентоспособных LLM.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
👀 EVLM: эффективная модель визуального языка для визуального понимания
Наш метод в первую очередь включает: использование перекрестного внимания для взаимодействия изображения и текста, аналогичного Flamingo использование иерархических функций ViT, а также введение механизма Mixture of Experts (MoE) для повышения эффективности модели.
Модель достигает конкурентоспособных оценок в публичных многомодальных тестах и хорошо справляется с такими задачами, как субтитры к изображениям и видео.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Наш метод в первую очередь включает: использование перекрестного внимания для взаимодействия изображения и текста, аналогичного Flamingo использование иерархических функций ViT, а также введение механизма Mixture of Experts (MoE) для повышения эффективности модели.
Модель достигает конкурентоспособных оценок в публичных многомодальных тестах и хорошо справляется с такими задачами, как субтитры к изображениям и видео.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться