⚡️ MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens
MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео.
Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео.
MiniGPT4-видео учитывает не только визуальный контент, но и текстовые диалоги, что позволяет модели эффективно отвечать на запросы, включающие как визуальные, так и текстовые компоненты.
Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.
▪️code: https://github.com/Vision-CAIR/MiniGPT4-video
▪️page: https://vision-cair.github.io/MiniGPT4-video/
▪️paper: https://arxiv.org/abs/2404.03413
▪️jupyter: https://github.com/camenduru/MiniGPT4-video-jupyter
@Devsp — Подписаться
MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео.
Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео.
MiniGPT4-видео учитывает не только визуальный контент, но и текстовые диалоги, что позволяет модели эффективно отвечать на запросы, включающие как визуальные, так и текстовые компоненты.
Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.
▪️code: https://github.com/Vision-CAIR/MiniGPT4-video
▪️page: https://vision-cair.github.io/MiniGPT4-video/
▪️paper: https://arxiv.org/abs/2404.03413
▪️jupyter: https://github.com/camenduru/MiniGPT4-video-jupyter
@Devsp — Подписаться
🌟 Open-Sora-Plan v1.0.0, which significantly enhances video generation quality and text control capabilities.
Open-Sora-Plan версии 1.0.0 - модель генерации, которая может генерировать 10-секундное видео с разрешением 1024 × 1024 со скоростью 24 кадра в секунду.
Этот проект направлен на создание простого и масштабируемого репозитория для воспроизведения Sora.
▪️Github
@Devsp — Подписаться
Open-Sora-Plan версии 1.0.0 - модель генерации, которая может генерировать 10-секундное видео с разрешением 1024 × 1024 со скоростью 24 кадра в секунду.
Этот проект направлен на создание простого и масштабируемого репозитория для воспроизведения Sora.
▪️Github
@Devsp — Подписаться
Forwarded from Яндекс
Как поступить в этом году: учиться в ШАД могут студенты старших курсов STEM-вузов и специалисты с опытом работы от трёх лет. У лучших абитуриентов появился новый способ поступить — через очную олимпиаду. Заявки принимаем до 12 мая.
Как будем учиться: четыре семестра занятия идут каждый день, очно или онлайн. Обучение займёт около двух лет. Сообщества студентов ШАД есть в Москве, Петербурге, Екатеринбурге, Новосибирске, Нижнем Новгороде и Минске.
Подписывайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Morphic
Morphic - это поисковая система с возможностью генерации ответов на основе искусственного интеллекта.
Она не только предоставляет информацию в текстовом формате, но и создает изображения для более наглядного понимания.
Этот проект полностью открытого кода занимает 4-е место среди новичков на Git по популярности.
▪Github: github.com/miurla/morphic
▪Попробовать: morphic.sh
@Devsp — Подписаться
Morphic - это поисковая система с возможностью генерации ответов на основе искусственного интеллекта.
Она не только предоставляет информацию в текстовом формате, но и создает изображения для более наглядного понимания.
Этот проект полностью открытого кода занимает 4-е место среди новичков на Git по популярности.
▪Github: github.com/miurla/morphic
▪Попробовать: morphic.sh
@Devsp — Подписаться
🌟SALMONN: Speech Audio Language Music Open Neural Network
⏩SALMONN — это большая языковая модель (LLM), позволяющая вводить речь, аудиособытия и музыку.
⏩Модель использует общие знания и когнитивные способности LLM для достижения когнитивно ориентированного восприятия звука, что значительно повышает универсальность модели и богатство задачи.
⏩Кроме того, SALMONN способен выполнять текстовые и даже устные команды с относительно высокой степенью точности.
🖥GitHub
📕Paper
🔥 Datasets
@Devsp — Подписаться
⏩SALMONN — это большая языковая модель (LLM), позволяющая вводить речь, аудиособытия и музыку.
⏩Модель использует общие знания и когнитивные способности LLM для достижения когнитивно ориентированного восприятия звука, что значительно повышает универсальность модели и богатство задачи.
⏩Кроме того, SALMONN способен выполнять текстовые и даже устные команды с относительно высокой степенью точности.
🖥GitHub
📕Paper
🔥 Datasets
@Devsp — Подписаться
🔥Мощная модель LLM для локального использования — Qwen 72B
Qwen — создан на массивной языковой модели и был обучен на ошеломляющих 3 триллионах токенов многоязычных данных.
Это чудо искусственного интеллекта понимает как английский, так и китайский язык, и было точно настроено для взаимодействия, подобного человеческому.
📎Перевод инструкции по установке
🖥GitHub
@Devsp — Подписаться
Qwen — создан на массивной языковой модели и был обучен на ошеломляющих 3 триллионах токенов многоязычных данных.
Это чудо искусственного интеллекта понимает как английский, так и китайский язык, и было точно настроено для взаимодействия, подобного человеческому.
📎Перевод инструкции по установке
🖥GitHub
@Devsp — Подписаться
🦾 Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
Griffin соответствует производительности Llama-2, несмотря на то, что он обучен более чем в 6 раз меньшему количеству токенов.
Он может экстраполировать последовательности, значительно более длинные, чем те, которые наблюдались во время обучения.
▪️Статья: arxiv.org/abs/2402.19427
▪️Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b
@Devsp — Подписаться
Griffin соответствует производительности Llama-2, несмотря на то, что он обучен более чем в 6 раз меньшему количеству токенов.
Он может экстраполировать последовательности, значительно более длинные, чем те, которые наблюдались во время обучения.
▪️Статья: arxiv.org/abs/2402.19427
▪️Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b
@Devsp — Подписаться
⚡️ LLocalSearch: completely locally running meta search engine using LLM Agents
LLocalSearch — это полностью локально работающий поисковый агрегатор с использованием агентов LLM.
Пользователь может задать вопрос, и система будет использовать цепочку LLM для поиска ответа.
▪️Github
@Devsp — Подписаться
LLocalSearch — это полностью локально работающий поисковый агрегатор с использованием агентов LLM.
Пользователь может задать вопрос, и система будет использовать цепочку LLM для поиска ответа.
▪️Github
@Devsp — Подписаться
⚡️ LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
LoRA представляя собой универсальный ускоритель для различных задач генераций изображений.
Новый подход, который значительно уменьшает нагрузку на диффузионные модели для генерации изображений. Подход позволяет перевести любую существующую обученную LDM на быструю генерацию.
LCM можно выделить из любой предварительно обученной стабильной диффузии (SD) всего за 4000 шагов обучения (около 32 часов графического процессора A100) для создания высококачественных изображений с разрешением 768 x 768 за 2–4 шага или даже за один шаг, что значительно ускоряет обработку текста и генерацию изображения.
🖥 Github: https://github.com/luosiallen/latent-consistency-model
📕Paper: https://arxiv.org/abs/2311.05556v1
🌐 Project: https://latent-consistency-models.github.io
🤗 Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model
@Devsp — Подписаться
LoRA представляя собой универсальный ускоритель для различных задач генераций изображений.
Новый подход, который значительно уменьшает нагрузку на диффузионные модели для генерации изображений. Подход позволяет перевести любую существующую обученную LDM на быструю генерацию.
LCM можно выделить из любой предварительно обученной стабильной диффузии (SD) всего за 4000 шагов обучения (около 32 часов графического процессора A100) для создания высококачественных изображений с разрешением 768 x 768 за 2–4 шага или даже за один шаг, что значительно ускоряет обработку текста и генерацию изображения.
🖥 Github: https://github.com/luosiallen/latent-consistency-model
📕Paper: https://arxiv.org/abs/2311.05556v1
🌐 Project: https://latent-consistency-models.github.io
🤗 Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model
@Devsp — Подписаться
🪞 Mirror: A Universal Framework for Various Information Extraction Tasks
Мощный инструмент для решения практически всех задач извлечения и унификации информации.
Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.
🖥 Github: https://github.com/Spico197/Mirror
📕Paper: https://arxiv.org/abs/2311.05419v1
🌐 Dataset: https://paperswithcode.com/dataset/glue
@Devsp — Подписаться
Мощный инструмент для решения практически всех задач извлечения и унификации информации.
Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.
🖥 Github: https://github.com/Spico197/Mirror
📕Paper: https://arxiv.org/abs/2311.05419v1
🌐 Dataset: https://paperswithcode.com/dataset/glue
@Devsp — Подписаться
🚀 Whisper-V3 / Consistency Decoder
Whisper — это предварительно обученная модель автоматического распознавания речи (ASR) и перевода речи.
Модели Whisper, обученные на 680 тысячах часов размеченных данных, демонстрируют сильную способность обобщать множество наборов данных и областей без необходимости тонкой настройки.
Модели, говорящие только на английском языке, были обучены задаче распознавания речи.
Для распознавания речи модель прогнозирует транскрипцию на том же языке, что и звук.
- Whisper paper: https://arxiv.org/abs/2212.04356
- Whisper-V3 checkpoint: https://github.com/openai/whisper/discussions/1762
- Consistency Models: https://arxiv.org/abs/2303.01469
- Consistency Decoder release: https://github.com/openai/consistencydecoder
@Devsp — Подписаться
Whisper — это предварительно обученная модель автоматического распознавания речи (ASR) и перевода речи.
Модели Whisper, обученные на 680 тысячах часов размеченных данных, демонстрируют сильную способность обобщать множество наборов данных и областей без необходимости тонкой настройки.
Модели, говорящие только на английском языке, были обучены задаче распознавания речи.
Для распознавания речи модель прогнозирует транскрипцию на том же языке, что и звук.
- Whisper paper: https://arxiv.org/abs/2212.04356
- Whisper-V3 checkpoint: https://github.com/openai/whisper/discussions/1762
- Consistency Models: https://arxiv.org/abs/2303.01469
- Consistency Decoder release: https://github.com/openai/consistencydecoder
@Devsp — Подписаться
🔥 Text Generation Inference v2.0.0 — готовый сервер для инференса LLM, написанный на Rust, Python и gRPC.
Text Generation Inference (TGI) — это набор инструментов для развертывания и обслуживания моделей большого языка (LLM).
TGI обеспечивает высокопроизводительную генерацию текста для самых популярных LLM с открытым исходным кодом, включая Llama, Falcon, StarCoder, BLOOM, GPT-NeoX и других.
В новую версию Text Generation Inference добавлена поддержка модели Command R+.
Используя возможности Medusa heads, на тестах достигается беспрецедентная скорость с задержкой всего в 9 мс на токен для модели 104B!
• Github
• Установка
@Devsp — Подписаться
Text Generation Inference (TGI) — это набор инструментов для развертывания и обслуживания моделей большого языка (LLM).
TGI обеспечивает высокопроизводительную генерацию текста для самых популярных LLM с открытым исходным кодом, включая Llama, Falcon, StarCoder, BLOOM, GPT-NeoX и других.
В новую версию Text Generation Inference добавлена поддержка модели Command R+.
Используя возможности Medusa heads, на тестах достигается беспрецедентная скорость с задержкой всего в 9 мс на токен для модели 104B!
• Github
• Установка
@Devsp — Подписаться
🔥Создание 3D-моделей из плоской картинки с помощью DUSt3R
DUSt3R — новый подход геометрического конструирования 3D на основе 2D (Dense and Unconstrained Stereo 3D Reconstruction).
DUSt3R не требует калибровки камеры или данных о точке обзора.
🖥GitHub
@Devsp — Подписаться
DUSt3R — новый подход геометрического конструирования 3D на основе 2D (Dense and Unconstrained Stereo 3D Reconstruction).
DUSt3R не требует калибровки камеры или данных о точке обзора.
🖥GitHub
@Devsp — Подписаться
🚀 Introducing YOLO-NAS Pose : A Game-Changer in Pose Estimation
YOLO-NAS обеспечивает современную производительность с непревзойденной точностью и скоростью, превосходя другие модели, такие как YOLOv5, YOLOv6, YOLOv7 и YOLOv8.
Для решения различных задач модель выпускается в четырех вариантах, каждый из которых имеет свой размер и время задержки.
Также доступна модель YOLO-NAS-POSE для оценки позы, обеспечивающая современный компромисс между точностью и производительностью.
🖥 Github: https://github.com/Deci-AI/super-gradients
📕Notebook: https://colab.research.google.com/drive/1O4N5Vbzv0rfkT81LQidPktX8RtoS5A40
🚀 Demo: https://huggingface.co/spaces/Deci/YOLO-NAS-Pose-Demo
🌐 Colab: https://colab.research.google.com/drive/1agLj0aGx48C_rZPrTkeA18kuncack6lF
@Devsp — Подписаться
YOLO-NAS обеспечивает современную производительность с непревзойденной точностью и скоростью, превосходя другие модели, такие как YOLOv5, YOLOv6, YOLOv7 и YOLOv8.
Для решения различных задач модель выпускается в четырех вариантах, каждый из которых имеет свой размер и время задержки.
Также доступна модель YOLO-NAS-POSE для оценки позы, обеспечивающая современный компромисс между точностью и производительностью.
🖥 Github: https://github.com/Deci-AI/super-gradients
📕Notebook: https://colab.research.google.com/drive/1O4N5Vbzv0rfkT81LQidPktX8RtoS5A40
🚀 Demo: https://huggingface.co/spaces/Deci/YOLO-NAS-Pose-Demo
🌐 Colab: https://colab.research.google.com/drive/1agLj0aGx48C_rZPrTkeA18kuncack6lF
@Devsp — Подписаться
👍1
⚡️ EntitySeg Toolbox: Towards open-world and high-quality image segmentation
EntitySeg — это набор инструментов с открытым исходным кодом, предназначенный для сегментации изображений в открытом мире и высокого качества.
🖥 Github: https://github.com/qqlu/entity
📕Paper: https://arxiv.org/abs/2311.03352v1
🌐 Dataset: https://paperswithcode.com/dataset/coco
@Devsp — Подписаться
EntitySeg — это набор инструментов с открытым исходным кодом, предназначенный для сегментации изображений в открытом мире и высокого качества.
🖥 Github: https://github.com/qqlu/entity
📕Paper: https://arxiv.org/abs/2311.03352v1
🌐 Dataset: https://paperswithcode.com/dataset/coco
@Devsp — Подписаться
🖥TORCH UNCERTAINTY
TorchUncertainty — это пакет, разработанный, чтобы помочь вам использовать методы количественной оценки неопределенности и сделать ваши глубокие нейронные сети более надежными.
TorchUncertainty в настоящее время поддерживает классификацию, вероятностную и точечную регрессию и сегментацию.
🖥 Github: https://github.com/ensta-u2is/torch-uncertainty
📕Paper: https://arxiv.org/abs/2311.01434v1
⏩Project: https://llmrec.github.io/
👣Api: https://torch-uncertainty.github.io/api.html
🌐 Dataset: https://paperswithcode.com/dataset/cifar-10
@Devsp — Подписаться
TorchUncertainty — это пакет, разработанный, чтобы помочь вам использовать методы количественной оценки неопределенности и сделать ваши глубокие нейронные сети более надежными.
TorchUncertainty в настоящее время поддерживает классификацию, вероятностную и точечную регрессию и сегментацию.
🖥 Github: https://github.com/ensta-u2is/torch-uncertainty
📕Paper: https://arxiv.org/abs/2311.01434v1
⏩Project: https://llmrec.github.io/
👣Api: https://torch-uncertainty.github.io/api.html
🌐 Dataset: https://paperswithcode.com/dataset/cifar-10
@Devsp — Подписаться
⚡️ LLMRec: Large Language Models with Graph Augmentation for Recommendation
LLMRec — это новая структура, которая расширяет возможности рекомендателей за счет применения трех простых, но эффективных стратегий расширения графов на основе LLM к системе рекомендаций.
🖥 Github: https://github.com/hkuds/llmrec
📕Paper: https://arxiv.org/abs/2311.00423v1
⏩Project: https://llmrec.github.io/
🌐 Dataset: https://llmrec.github.io/#
@Devsp — Подписаться
LLMRec — это новая структура, которая расширяет возможности рекомендателей за счет применения трех простых, но эффективных стратегий расширения графов на основе LLM к системе рекомендаций.
🖥 Github: https://github.com/hkuds/llmrec
📕Paper: https://arxiv.org/abs/2311.00423v1
⏩Project: https://llmrec.github.io/
🌐 Dataset: https://llmrec.github.io/#
@Devsp — Подписаться