😎VD3D: Укрощение больших видеодиффузионных трансформаторов для управления 3D-камерой
Новые методы демонстрируют возможность генерировать видео с управляемыми позами камеры; эти методы используют предварительно обученные модели диффузии на основе U-Net, которые явно разделяют пространственную и временную генерацию.
Подход демонстрирует современную производительность для управляемой генерации видео после тонкой настройки на наборе данных RealEstate10K.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Новые методы демонстрируют возможность генерировать видео с управляемыми позами камеры; эти методы используют предварительно обученные модели диффузии на основе U-Net, которые явно разделяют пространственную и временную генерацию.
Подход демонстрирует современную производительность для управляемой генерации видео после тонкой настройки на наборе данных RealEstate10K.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🔍BRIGHT: реалистичный и сложный тест для поиска информации с интенсивным рассуждением
BRIGHT, первый тест поиска текста, который требует интенсивного обоснования для поиска соответствующих документов.
Он создан на основе 1398 запросов реального мира, собранных из различных областей, полученных из естественных или тщательно отобранных человеческих данных.
Обширная оценка показывает, что даже самые современные модели поиска не плохо работают с ним.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
BRIGHT, первый тест поиска текста, который требует интенсивного обоснования для поиска соответствующих документов.
Он создан на основе 1398 запросов реального мира, собранных из различных областей, полученных из естественных или тщательно отобранных человеческих данных.
Обширная оценка показывает, что даже самые современные модели поиска не плохо работают с ним.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🦾 CLAY: Управляемая крупномасштабная генеративная модель для создания высококачественных 3D-ресурсов
CLAY — генератор 3D-геометрии и материалов, разработанный для легкого преобразования человеческого воображения в сложные 3D-цифровые структуры.
Он поддерживает классический ввод текста или изображения, а также элементы управления с поддержкой 3D из различных примитивов.
В частности, он использует нейронные поля для представления непрерывных и полных поверхностей и использует модуль генеративной геометрии с чистыми блоками трансформатора в скрытом пространстве.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
CLAY — генератор 3D-геометрии и материалов, разработанный для легкого преобразования человеческого воображения в сложные 3D-цифровые структуры.
Он поддерживает классический ввод текста или изображения, а также элементы управления с поддержкой 3D из различных примитивов.
В частности, он использует нейронные поля для представления непрерывных и полных поверхностей и использует модуль генеративной геометрии с чистыми блоками трансформатора в скрытом пространстве.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🗣PM-LLM-Benchmark: Оценка больших языковых моделей в задачах анализа процессов
PM-LLM-Benchmark — первый всеобъемлющий бенчмарк для PM, фокусирующийся на знаниях предметной области (специфичных для анализа процессов и специфичных для процессов) и на различных стратегиях внедрения.
Он полезен для выявления LLM, которые подходят для задач анализа процессов, необходимы дальнейшие исследования для преодоления предвзятости оценки и проведения более тщательного ранжирования конкурентоспособных LLM.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
PM-LLM-Benchmark — первый всеобъемлющий бенчмарк для PM, фокусирующийся на знаниях предметной области (специфичных для анализа процессов и специфичных для процессов) и на различных стратегиях внедрения.
Он полезен для выявления LLM, которые подходят для задач анализа процессов, необходимы дальнейшие исследования для преодоления предвзятости оценки и проведения более тщательного ранжирования конкурентоспособных LLM.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
👀 EVLM: эффективная модель визуального языка для визуального понимания
Наш метод в первую очередь включает: использование перекрестного внимания для взаимодействия изображения и текста, аналогичного Flamingo использование иерархических функций ViT, а также введение механизма Mixture of Experts (MoE) для повышения эффективности модели.
Модель достигает конкурентоспособных оценок в публичных многомодальных тестах и хорошо справляется с такими задачами, как субтитры к изображениям и видео.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Наш метод в первую очередь включает: использование перекрестного внимания для взаимодействия изображения и текста, аналогичного Flamingo использование иерархических функций ViT, а также введение механизма Mixture of Experts (MoE) для повышения эффективности модели.
Модель достигает конкурентоспособных оценок в публичных многомодальных тестах и хорошо справляется с такими задачами, как субтитры к изображениям и видео.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
⚡️SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео
Модель большого языка видео (LLM) без обучения, которая может совместно захватывать подробную пространственную семантику и долгосрочный временной контекст, не превышая бюджет токенов обычно используемых LLM.
Это реализуется с помощью двухпоточной конструкции входов SlowFast для видео LLM для эффективного агрегирования признаков из отобранных видеокадров.
Экспериментальные результаты показывают, что SF-LLaVA превосходит существующие методы без обучения в широком спектре задач видео.
В некоторых тестах он достигает сопоставимой или даже более высокой производительности по сравнению с современными моделями Video LLM, которые точно настроены на наборы видеоданных.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель большого языка видео (LLM) без обучения, которая может совместно захватывать подробную пространственную семантику и долгосрочный временной контекст, не превышая бюджет токенов обычно используемых LLM.
Это реализуется с помощью двухпоточной конструкции входов SlowFast для видео LLM для эффективного агрегирования признаков из отобранных видеокадров.
Экспериментальные результаты показывают, что SF-LLaVA превосходит существующие методы без обучения в широком спектре задач видео.
В некоторых тестах он достигает сопоставимой или даже более высокой производительности по сравнению с современными моделями Video LLM, которые точно настроены на наборы видеоданных.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🤖 Квантизация моделей: код, позволяющий сжимать нейросети в 8 раз без потери качества
Яндекс представил новое решение, позволяющее экономить ресурсы компаний, разрабатывающих и внедряющих нейросети. Например, благодаря новому методу модель Llama 2 после сжатия можно будет запустить на 1 графическом процессоре вместо 4.
Читать…
Яндекс представил новое решение, позволяющее экономить ресурсы компаний, разрабатывающих и внедряющих нейросети. Например, благодаря новому методу модель Llama 2 после сжатия можно будет запустить на 1 графическом процессоре вместо 4.
Читать…
🖥 Самые интересные публикации за последние дни:
• Как визуальные головоломки помогут выявить AGI
• SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео
• Как с помощью supervised fine-tuning кастомизировать LLM
• Как визуальные головоломки помогут выявить AGI
• SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео
• Как с помощью supervised fine-tuning кастомизировать LLM
👨💻OpenDevin: открытая платформа для разработчиков программного обеспечения на основе ИИ в качестве универсальных агентов
Платформа для разработки мощных и гибких агентов ИИ, которые взаимодействуют с миром аналогично тому, как это делает разработчик-человек: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц.
OpenDevin, выпущенный по разрешительной лицензии MIT, представляет собой общественный проект, охватывающий академическую среду и промышленность, в который внесли вклад более 1,3 тыс. человек от более чем 160 участников, и который будет совершенствоваться в будущем.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Платформа для разработки мощных и гибких агентов ИИ, которые взаимодействуют с миром аналогично тому, как это делает разработчик-человек: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц.
OpenDevin, выпущенный по разрешительной лицензии MIT, представляет собой общественный проект, охватывающий академическую среду и промышленность, в который внесли вклад более 1,3 тыс. человек от более чем 160 участников, и который будет совершенствоваться в будущем.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
📸 SV4D: Динамическая генерация 3D-контента с многокадровой и многовидовой согласованностью
Модель скрытой диффузии видео для многокадровой и многовидовой согласованной генерации динамического 3D-контента.
Учитывая монокулярное эталонное видео, SV4D генерирует новые виды для каждого видеокадра, которые являются временно согласованными.
Обширные экспериментальные результаты на нескольких наборах данных и исследования пользователей демонстрируют современную производительность SV4D при синтезе видео с новыми видами, а также при генерации 4D по сравнению с предыдущими работами.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель скрытой диффузии видео для многокадровой и многовидовой согласованной генерации динамического 3D-контента.
Учитывая монокулярное эталонное видео, SV4D генерирует новые виды для каждого видеокадра, которые являются временно согласованными.
Обширные экспериментальные результаты на нескольких наборах данных и исследования пользователей демонстрируют современную производительность SV4D при синтезе видео с новыми видами, а также при генерации 4D по сравнению с предыдущими работами.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🤩 Diffree: Текстовая визуализация свободных объектов с использованием модели диффузии
Модель облегчает текстовое управление добавлением объектов с помощью только текстового управления.
Diffree однозначно предсказывает положение нового объекта и выполняет добавление объектов с помощью только текстового руководства.
Обширные эксперименты показывают, что Diffree отлично справляется с добавлением новых объектов с высокой степенью успеха, сохраняя при этом последовательность фона, пространственную уместность, а также релевантность и качество объектов.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель облегчает текстовое управление добавлением объектов с помощью только текстового управления.
Diffree однозначно предсказывает положение нового объекта и выполняет добавление объектов с помощью только текстового руководства.
Обширные эксперименты показывают, что Diffree отлично справляется с добавлением новых объектов с высокой степенью успеха, сохраняя при этом последовательность фона, пространственную уместность, а также релевантность и качество объектов.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться