⚡️SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео
Модель большого языка видео (LLM) без обучения, которая может совместно захватывать подробную пространственную семантику и долгосрочный временной контекст, не превышая бюджет токенов обычно используемых LLM.
Это реализуется с помощью двухпоточной конструкции входов SlowFast для видео LLM для эффективного агрегирования признаков из отобранных видеокадров.
Экспериментальные результаты показывают, что SF-LLaVA превосходит существующие методы без обучения в широком спектре задач видео.
В некоторых тестах он достигает сопоставимой или даже более высокой производительности по сравнению с современными моделями Video LLM, которые точно настроены на наборы видеоданных.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель большого языка видео (LLM) без обучения, которая может совместно захватывать подробную пространственную семантику и долгосрочный временной контекст, не превышая бюджет токенов обычно используемых LLM.
Это реализуется с помощью двухпоточной конструкции входов SlowFast для видео LLM для эффективного агрегирования признаков из отобранных видеокадров.
Экспериментальные результаты показывают, что SF-LLaVA превосходит существующие методы без обучения в широком спектре задач видео.
В некоторых тестах он достигает сопоставимой или даже более высокой производительности по сравнению с современными моделями Video LLM, которые точно настроены на наборы видеоданных.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🤖 Квантизация моделей: код, позволяющий сжимать нейросети в 8 раз без потери качества
Яндекс представил новое решение, позволяющее экономить ресурсы компаний, разрабатывающих и внедряющих нейросети. Например, благодаря новому методу модель Llama 2 после сжатия можно будет запустить на 1 графическом процессоре вместо 4.
Читать…
Яндекс представил новое решение, позволяющее экономить ресурсы компаний, разрабатывающих и внедряющих нейросети. Например, благодаря новому методу модель Llama 2 после сжатия можно будет запустить на 1 графическом процессоре вместо 4.
Читать…
🖥 Самые интересные публикации за последние дни:
• Как визуальные головоломки помогут выявить AGI
• SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео
• Как с помощью supervised fine-tuning кастомизировать LLM
• Как визуальные головоломки помогут выявить AGI
• SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео
• Как с помощью supervised fine-tuning кастомизировать LLM
👨💻OpenDevin: открытая платформа для разработчиков программного обеспечения на основе ИИ в качестве универсальных агентов
Платформа для разработки мощных и гибких агентов ИИ, которые взаимодействуют с миром аналогично тому, как это делает разработчик-человек: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц.
OpenDevin, выпущенный по разрешительной лицензии MIT, представляет собой общественный проект, охватывающий академическую среду и промышленность, в который внесли вклад более 1,3 тыс. человек от более чем 160 участников, и который будет совершенствоваться в будущем.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Платформа для разработки мощных и гибких агентов ИИ, которые взаимодействуют с миром аналогично тому, как это делает разработчик-человек: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц.
OpenDevin, выпущенный по разрешительной лицензии MIT, представляет собой общественный проект, охватывающий академическую среду и промышленность, в который внесли вклад более 1,3 тыс. человек от более чем 160 участников, и который будет совершенствоваться в будущем.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
📸 SV4D: Динамическая генерация 3D-контента с многокадровой и многовидовой согласованностью
Модель скрытой диффузии видео для многокадровой и многовидовой согласованной генерации динамического 3D-контента.
Учитывая монокулярное эталонное видео, SV4D генерирует новые виды для каждого видеокадра, которые являются временно согласованными.
Обширные экспериментальные результаты на нескольких наборах данных и исследования пользователей демонстрируют современную производительность SV4D при синтезе видео с новыми видами, а также при генерации 4D по сравнению с предыдущими работами.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель скрытой диффузии видео для многокадровой и многовидовой согласованной генерации динамического 3D-контента.
Учитывая монокулярное эталонное видео, SV4D генерирует новые виды для каждого видеокадра, которые являются временно согласованными.
Обширные экспериментальные результаты на нескольких наборах данных и исследования пользователей демонстрируют современную производительность SV4D при синтезе видео с новыми видами, а также при генерации 4D по сравнению с предыдущими работами.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🤩 Diffree: Текстовая визуализация свободных объектов с использованием модели диффузии
Модель облегчает текстовое управление добавлением объектов с помощью только текстового управления.
Diffree однозначно предсказывает положение нового объекта и выполняет добавление объектов с помощью только текстового руководства.
Обширные эксперименты показывают, что Diffree отлично справляется с добавлением новых объектов с высокой степенью успеха, сохраняя при этом последовательность фона, пространственную уместность, а также релевантность и качество объектов.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель облегчает текстовое управление добавлением объектов с помощью только текстового управления.
Diffree однозначно предсказывает положение нового объекта и выполняет добавление объектов с помощью только текстового руководства.
Обширные эксперименты показывают, что Diffree отлично справляется с добавлением новых объектов с высокой степенью успеха, сохраняя при этом последовательность фона, пространственную уместность, а также релевантность и качество объектов.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🗣Dallah: Мультимодальная большая языковая модель с учетом диалектов для арабского языка
Dallah демонстрирует свою способность обрабатывать сложные диалектные взаимодействия, включающие как текстовые, так и визуальные элементы.
Модель преуспевает в двух контрольных тестах: один оценивает ее производительность на современном стандартном арабском языке (MSA), а другой специально разработан для оценки диалектных ответов.
Помимо надежной работы в задачах мультимодального взаимодействия, Dallah обладает потенциалом проложить путь для дальнейшего развития арабских MLLM-систем, учитывающих диалекты.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Dallah демонстрирует свою способность обрабатывать сложные диалектные взаимодействия, включающие как текстовые, так и визуальные элементы.
Модель преуспевает в двух контрольных тестах: один оценивает ее производительность на современном стандартном арабском языке (MSA), а другой специально разработан для оценки диалектных ответов.
Помимо надежной работы в задачах мультимодального взаимодействия, Dallah обладает потенциалом проложить путь для дальнейшего развития арабских MLLM-систем, учитывающих диалекты.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🚀MIBench: Оценка многомодульных больших языковых моделей на основе нескольких изображений
Метод комплексной оценки мелкозернистых возможностей MLLM в сценариях с несколькими изображениями.
В частности, MIBench классифицирует многообразные возможности по трем сценариям: многообразное обучение (MII), многомодальный поиск знаний (MKS) и многомодальное контекстное обучение (MIC) и создает 13 задач с общим количеством 13 тыс. аннотированных образцов.
Во время построения данных для MII и MKS модель извлекает правильные варианты из ручных аннотаций и создаем сложные отвлекающие факторы для получения вопросов с несколькими вариантами ответов.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Метод комплексной оценки мелкозернистых возможностей MLLM в сценариях с несколькими изображениями.
В частности, MIBench классифицирует многообразные возможности по трем сценариям: многообразное обучение (MII), многомодальный поиск знаний (MKS) и многомодальное контекстное обучение (MIC) и создает 13 задач с общим количеством 13 тыс. аннотированных образцов.
Во время построения данных для MII и MKS модель извлекает правильные варианты из ручных аннотаций и создаем сложные отвлекающие факторы для получения вопросов с несколькими вариантами ответов.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
😍SeaLLMs 3: Open Foundation и чат-модели больших многоязычных языков для языков Юго-Восточной Азии
Модель отлично справляется с такими задачами, как знание мира, математическое обоснование, перевод и следование инструкциям, достигая самой высокой производительности среди моделей аналогичного размера.
Используя эффективные методы улучшения языка и специально созданный набор данных для настройки инструкций, SeaLLMs 3 значительно снижает затраты на обучение, сохраняя при этом высокую производительность и универсальность.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель отлично справляется с такими задачами, как знание мира, математическое обоснование, перевод и следование инструкциям, достигая самой высокой производительности среди моделей аналогичного размера.
Используя эффективные методы улучшения языка и специально созданный набор данных для настройки инструкций, SeaLLMs 3 значительно снижает затраты на обучение, сохраняя при этом высокую производительность и универсальность.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🖥 Самые интересные статьи за последние дни:
• Генерация текстового контента с ИИ: обзор и сравнение моделей
• Всё что нужно знать про DuckDB
• Какие задачи сегодня решаются с помощью транспортной видеоаналитики
• Генерация текстового контента с ИИ: обзор и сравнение моделей
• Всё что нужно знать про DuckDB
• Какие задачи сегодня решаются с помощью транспортной видеоаналитики
😇ThinK: более тонкий кэш ключей с помощью отсечения на основе запросов
Новый метод обрезки кэша KV, зависящий от запроса, разработанный для минимизации потери веса внимания при выборочной обрезке наименее значимых каналов.
Подход не только сохраняет или повышает точность модели, но и обеспечивает снижение затрат памяти более чем на 20% по сравнению с ванильными методами вытеснения кэша KV.
Расширенные оценки моделей LLaMA3 и Mistral в различных наборах данных с длинными последовательностями подтверждают эффективность ThinK, устанавливая новый прецедент для эффективного развертывания LLM без ущерба для производительности.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Новый метод обрезки кэша KV, зависящий от запроса, разработанный для минимизации потери веса внимания при выборочной обрезке наименее значимых каналов.
Подход не только сохраняет или повышает точность модели, но и обеспечивает снижение затрат памяти более чем на 20% по сравнению с ванильными методами вытеснения кэша KV.
Расширенные оценки моделей LLaMA3 и Mistral в различных наборах данных с длинными последовательностями подтверждают эффективность ThinK, устанавливая новый прецедент для эффективного развертывания LLM без ущерба для производительности.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
📸 YandexART теперь может реставрировать архивные видеозаписи и кинохронику
Этот навык будет полезен для кинокомпаний, музеев, историков и других специалистов, работающих с историческим наследием.
С помощью нейросетевых технологий и компьютерной графики, команды компьютерного зрения Яндекса, Yandex Research и Плюс Студии уже смогли улучшить качество старых видеоматериалов для сериала «Игры» про Олимпиаду-80.
Нейросеть научилась добавлять фактуру и недостающие детали на размытые и нечёткие кадры, такие как кирпичная кладка на стенах, узоры на женском платье, фары и поворотники у автомобилей.
Особое внимание было уделено проблеме галлюцинаций — тенденции генеративных моделей добавлять несуществующие детали. Для её решения применили метод поэтапного обучения на данных низкого качества, что позволило повысить точность реконструкции.
@Devsp — Подписаться
Этот навык будет полезен для кинокомпаний, музеев, историков и других специалистов, работающих с историческим наследием.
С помощью нейросетевых технологий и компьютерной графики, команды компьютерного зрения Яндекса, Yandex Research и Плюс Студии уже смогли улучшить качество старых видеоматериалов для сериала «Игры» про Олимпиаду-80.
Нейросеть научилась добавлять фактуру и недостающие детали на размытые и нечёткие кадры, такие как кирпичная кладка на стенах, узоры на женском платье, фары и поворотники у автомобилей.
Особое внимание было уделено проблеме галлюцинаций — тенденции генеративных моделей добавлять несуществующие детали. Для её решения применили метод поэтапного обучения на данных низкого качества, что позволило повысить точность реконструкции.
@Devsp — Подписаться