🗣PM-LLM-Benchmark: Оценка больших языковых моделей в задачах анализа процессов
PM-LLM-Benchmark — первый всеобъемлющий бенчмарк для PM, фокусирующийся на знаниях предметной области (специфичных для анализа процессов и специфичных для процессов) и на различных стратегиях внедрения.
Он полезен для выявления LLM, которые подходят для задач анализа процессов, необходимы дальнейшие исследования для преодоления предвзятости оценки и проведения более тщательного ранжирования конкурентоспособных LLM.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
PM-LLM-Benchmark — первый всеобъемлющий бенчмарк для PM, фокусирующийся на знаниях предметной области (специфичных для анализа процессов и специфичных для процессов) и на различных стратегиях внедрения.
Он полезен для выявления LLM, которые подходят для задач анализа процессов, необходимы дальнейшие исследования для преодоления предвзятости оценки и проведения более тщательного ранжирования конкурентоспособных LLM.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
👀 EVLM: эффективная модель визуального языка для визуального понимания
Наш метод в первую очередь включает: использование перекрестного внимания для взаимодействия изображения и текста, аналогичного Flamingo использование иерархических функций ViT, а также введение механизма Mixture of Experts (MoE) для повышения эффективности модели.
Модель достигает конкурентоспособных оценок в публичных многомодальных тестах и хорошо справляется с такими задачами, как субтитры к изображениям и видео.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Наш метод в первую очередь включает: использование перекрестного внимания для взаимодействия изображения и текста, аналогичного Flamingo использование иерархических функций ViT, а также введение механизма Mixture of Experts (MoE) для повышения эффективности модели.
Модель достигает конкурентоспособных оценок в публичных многомодальных тестах и хорошо справляется с такими задачами, как субтитры к изображениям и видео.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
⚡️SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео
Модель большого языка видео (LLM) без обучения, которая может совместно захватывать подробную пространственную семантику и долгосрочный временной контекст, не превышая бюджет токенов обычно используемых LLM.
Это реализуется с помощью двухпоточной конструкции входов SlowFast для видео LLM для эффективного агрегирования признаков из отобранных видеокадров.
Экспериментальные результаты показывают, что SF-LLaVA превосходит существующие методы без обучения в широком спектре задач видео.
В некоторых тестах он достигает сопоставимой или даже более высокой производительности по сравнению с современными моделями Video LLM, которые точно настроены на наборы видеоданных.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель большого языка видео (LLM) без обучения, которая может совместно захватывать подробную пространственную семантику и долгосрочный временной контекст, не превышая бюджет токенов обычно используемых LLM.
Это реализуется с помощью двухпоточной конструкции входов SlowFast для видео LLM для эффективного агрегирования признаков из отобранных видеокадров.
Экспериментальные результаты показывают, что SF-LLaVA превосходит существующие методы без обучения в широком спектре задач видео.
В некоторых тестах он достигает сопоставимой или даже более высокой производительности по сравнению с современными моделями Video LLM, которые точно настроены на наборы видеоданных.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🤖 Квантизация моделей: код, позволяющий сжимать нейросети в 8 раз без потери качества
Яндекс представил новое решение, позволяющее экономить ресурсы компаний, разрабатывающих и внедряющих нейросети. Например, благодаря новому методу модель Llama 2 после сжатия можно будет запустить на 1 графическом процессоре вместо 4.
Читать…
Яндекс представил новое решение, позволяющее экономить ресурсы компаний, разрабатывающих и внедряющих нейросети. Например, благодаря новому методу модель Llama 2 после сжатия можно будет запустить на 1 графическом процессоре вместо 4.
Читать…
🖥 Самые интересные публикации за последние дни:
• Как визуальные головоломки помогут выявить AGI
• SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео
• Как с помощью supervised fine-tuning кастомизировать LLM
• Как визуальные головоломки помогут выявить AGI
• SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео
• Как с помощью supervised fine-tuning кастомизировать LLM
👨💻OpenDevin: открытая платформа для разработчиков программного обеспечения на основе ИИ в качестве универсальных агентов
Платформа для разработки мощных и гибких агентов ИИ, которые взаимодействуют с миром аналогично тому, как это делает разработчик-человек: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц.
OpenDevin, выпущенный по разрешительной лицензии MIT, представляет собой общественный проект, охватывающий академическую среду и промышленность, в который внесли вклад более 1,3 тыс. человек от более чем 160 участников, и который будет совершенствоваться в будущем.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Платформа для разработки мощных и гибких агентов ИИ, которые взаимодействуют с миром аналогично тому, как это делает разработчик-человек: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц.
OpenDevin, выпущенный по разрешительной лицензии MIT, представляет собой общественный проект, охватывающий академическую среду и промышленность, в который внесли вклад более 1,3 тыс. человек от более чем 160 участников, и который будет совершенствоваться в будущем.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
📸 SV4D: Динамическая генерация 3D-контента с многокадровой и многовидовой согласованностью
Модель скрытой диффузии видео для многокадровой и многовидовой согласованной генерации динамического 3D-контента.
Учитывая монокулярное эталонное видео, SV4D генерирует новые виды для каждого видеокадра, которые являются временно согласованными.
Обширные экспериментальные результаты на нескольких наборах данных и исследования пользователей демонстрируют современную производительность SV4D при синтезе видео с новыми видами, а также при генерации 4D по сравнению с предыдущими работами.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель скрытой диффузии видео для многокадровой и многовидовой согласованной генерации динамического 3D-контента.
Учитывая монокулярное эталонное видео, SV4D генерирует новые виды для каждого видеокадра, которые являются временно согласованными.
Обширные экспериментальные результаты на нескольких наборах данных и исследования пользователей демонстрируют современную производительность SV4D при синтезе видео с новыми видами, а также при генерации 4D по сравнению с предыдущими работами.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🤩 Diffree: Текстовая визуализация свободных объектов с использованием модели диффузии
Модель облегчает текстовое управление добавлением объектов с помощью только текстового управления.
Diffree однозначно предсказывает положение нового объекта и выполняет добавление объектов с помощью только текстового руководства.
Обширные эксперименты показывают, что Diffree отлично справляется с добавлением новых объектов с высокой степенью успеха, сохраняя при этом последовательность фона, пространственную уместность, а также релевантность и качество объектов.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель облегчает текстовое управление добавлением объектов с помощью только текстового управления.
Diffree однозначно предсказывает положение нового объекта и выполняет добавление объектов с помощью только текстового руководства.
Обширные эксперименты показывают, что Diffree отлично справляется с добавлением новых объектов с высокой степенью успеха, сохраняя при этом последовательность фона, пространственную уместность, а также релевантность и качество объектов.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🗣Dallah: Мультимодальная большая языковая модель с учетом диалектов для арабского языка
Dallah демонстрирует свою способность обрабатывать сложные диалектные взаимодействия, включающие как текстовые, так и визуальные элементы.
Модель преуспевает в двух контрольных тестах: один оценивает ее производительность на современном стандартном арабском языке (MSA), а другой специально разработан для оценки диалектных ответов.
Помимо надежной работы в задачах мультимодального взаимодействия, Dallah обладает потенциалом проложить путь для дальнейшего развития арабских MLLM-систем, учитывающих диалекты.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Dallah демонстрирует свою способность обрабатывать сложные диалектные взаимодействия, включающие как текстовые, так и визуальные элементы.
Модель преуспевает в двух контрольных тестах: один оценивает ее производительность на современном стандартном арабском языке (MSA), а другой специально разработан для оценки диалектных ответов.
Помимо надежной работы в задачах мультимодального взаимодействия, Dallah обладает потенциалом проложить путь для дальнейшего развития арабских MLLM-систем, учитывающих диалекты.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🚀MIBench: Оценка многомодульных больших языковых моделей на основе нескольких изображений
Метод комплексной оценки мелкозернистых возможностей MLLM в сценариях с несколькими изображениями.
В частности, MIBench классифицирует многообразные возможности по трем сценариям: многообразное обучение (MII), многомодальный поиск знаний (MKS) и многомодальное контекстное обучение (MIC) и создает 13 задач с общим количеством 13 тыс. аннотированных образцов.
Во время построения данных для MII и MKS модель извлекает правильные варианты из ручных аннотаций и создаем сложные отвлекающие факторы для получения вопросов с несколькими вариантами ответов.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Метод комплексной оценки мелкозернистых возможностей MLLM в сценариях с несколькими изображениями.
В частности, MIBench классифицирует многообразные возможности по трем сценариям: многообразное обучение (MII), многомодальный поиск знаний (MKS) и многомодальное контекстное обучение (MIC) и создает 13 задач с общим количеством 13 тыс. аннотированных образцов.
Во время построения данных для MII и MKS модель извлекает правильные варианты из ручных аннотаций и создаем сложные отвлекающие факторы для получения вопросов с несколькими вариантами ответов.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
😍SeaLLMs 3: Open Foundation и чат-модели больших многоязычных языков для языков Юго-Восточной Азии
Модель отлично справляется с такими задачами, как знание мира, математическое обоснование, перевод и следование инструкциям, достигая самой высокой производительности среди моделей аналогичного размера.
Используя эффективные методы улучшения языка и специально созданный набор данных для настройки инструкций, SeaLLMs 3 значительно снижает затраты на обучение, сохраняя при этом высокую производительность и универсальность.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Модель отлично справляется с такими задачами, как знание мира, математическое обоснование, перевод и следование инструкциям, достигая самой высокой производительности среди моделей аналогичного размера.
Используя эффективные методы улучшения языка и специально созданный набор данных для настройки инструкций, SeaLLMs 3 значительно снижает затраты на обучение, сохраняя при этом высокую производительность и универсальность.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться