Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​⚡️ MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео.

Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео.

MiniGPT4-видео учитывает не только визуальный контент, но и текстовые диалоги, что позволяет модели эффективно отвечать на запросы, включающие как визуальные, так и текстовые компоненты.

Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.

▪️code: https://github.com/Vision-CAIR/MiniGPT4-video
▪️page: https://vision-cair.github.io/MiniGPT4-video/
▪️paper: https://arxiv.org/abs/2404.03413
▪️jupyter: https://github.com/camenduru/MiniGPT4-video-jupyter

@DevspПодписаться
​​🌟 Open-Sora-Plan v1.0.0, which significantly enhances video generation quality and text control capabilities.

Open-Sora-Plan версии 1.0.0 - модель генерации, которая может генерировать 10-секундное видео с разрешением 1024 × 1024 со скоростью 24 кадра в секунду.

Этот проект направлен на создание простого и масштабируемого репозитория для воспроизведения Sora.

▪️Github

@DevspПодписаться
Forwarded from Яндекс
😊 Начинаем набор в Школу анализа данных. В этом году планируем зачислить больше 400 студентов. Будем бесплатно учить разработке ​машинного обучения, Data Science, инфраструктуре ​больших данных, анализу данных и ИИ в прикладных науках.

Как поступить в этом году: учиться в ШАД могут студенты старших курсов STEM-вузов и специалисты с опытом работы от трёх лет. У лучших абитуриентов появился новый способ поступить — через очную олимпиаду. Заявки принимаем до 12 мая.

Как будем учиться: четыре семестра занятия идут каждый день, очно или онлайн. Обучение займёт около двух лет. Сообщества студентов ШАД есть в Москве, Петербурге, Екатеринбурге, Новосибирске, Нижнем Новгороде и Минске.

Подписывайтесь @yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
​​⚡️ Morphic

Morphic - это поисковая система с возможностью генерации ответов на основе искусственного интеллекта.

Она не только предоставляет информацию в текстовом формате, но и создает изображения для более наглядного понимания.

Этот проект полностью открытого кода занимает 4-е место среди новичков на Git по популярности.

Github: github.com/miurla/morphic
Попробовать: morphic.sh

@DevspПодписаться
​​🌟SALMONN: Speech Audio Language Music Open Neural Network

SALMONN — это большая языковая модель (LLM), позволяющая вводить речь, аудиособытия и музыку.

Модель использует общие знания и когнитивные способности LLM для достижения когнитивно ориентированного восприятия звука, что значительно повышает универсальность модели и богатство задачи.

Кроме того, SALMONN способен выполнять текстовые и даже устные команды с относительно высокой степенью точности.

🖥GitHub
📕Paper
🔥 Datasets

@DevspПодписаться
​​🔥Мощная модель LLM для локального использования — Qwen 72B

Qwen — создан на массивной языковой модели и был обучен на ошеломляющих 3 триллионах токенов многоязычных данных.

Это чудо искусственного интеллекта понимает как английский, так и китайский язык, и было точно настроено для взаимодействия, подобного человеческому.

📎Перевод инструкции по установке
🖥GitHub

@DevspПодписаться
​​🦾 Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Griffin соответствует производительности Llama-2, несмотря на то, что он обучен более чем в 6 раз меньшему количеству токенов.

Он может экстраполировать последовательности, значительно более длинные, чем те, которые наблюдались во время обучения.

▪️Статья: arxiv.org/abs/2402.19427
▪️Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b

@DevspПодписаться
​​⚡️ LLocalSearch: completely locally running meta search engine using LLM Agents

LLocalSearch — это полностью локально работающий поисковый агрегатор с использованием агентов LLM.

Пользователь может задать вопрос, и система будет использовать цепочку LLM для поиска ответа.

▪️Github

@DevspПодписаться
​​⚡️ LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

LoRA представляя собой универсальный ускоритель для различных задач генераций изображений.

Новый подход, который значительно уменьшает нагрузку на диффузионные модели для генерации изображений. Подход позволяет перевести любую существующую обученную LDM на быструю генерацию.

LCM можно выделить из любой предварительно обученной стабильной диффузии (SD) всего за 4000 шагов обучения (около 32 часов графического процессора A100) для создания высококачественных изображений с разрешением 768 x 768 за 2–4 шага или даже за один шаг, что значительно ускоряет обработку текста и генерацию изображения.

🖥 Github: https://github.com/luosiallen/latent-consistency-model

📕Paper: https://arxiv.org/abs/2311.05556v1

🌐 Project: https://latent-consistency-models.github.io

🤗 Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model

@DevspПодписаться
​​🪞 Mirror: A Universal Framework for Various Information Extraction Tasks

Мощный инструмент для решения практически всех задач извлечения и унификации информации.

Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.

🖥 Github: https://github.com/Spico197/Mirror

📕Paper: https://arxiv.org/abs/2311.05419v1

🌐 Dataset: https://paperswithcode.com/dataset/glue

@DevspПодписаться
​​🚀 Whisper-V3 / Consistency Decoder

Whisper — это предварительно обученная модель автоматического распознавания речи (ASR) и перевода речи.

Модели Whisper, обученные на 680 тысячах часов размеченных данных, демонстрируют сильную способность обобщать множество наборов данных и областей без необходимости тонкой настройки.

Модели, говорящие только на английском языке, были обучены задаче распознавания речи.

Для распознавания речи модель прогнозирует транскрипцию на том же языке, что и звук.

- Whisper paper: https://arxiv.org/abs/2212.04356
- Whisper-V3 checkpoint: https://github.com/openai/whisper/discussions/1762
- Consistency Models: https://arxiv.org/abs/2303.01469
- Consistency Decoder release: https://github.com/openai/consistencydecoder

@DevspПодписаться
​​🔥 Text Generation Inference v2.0.0 —  готовый сервер для инференса LLM, написанный на Rust, Python и gRPC.

Text Generation Inference (TGI) — это набор инструментов для развертывания и обслуживания моделей большого языка (LLM).

TGI обеспечивает высокопроизводительную генерацию текста для самых популярных LLM с открытым исходным кодом, включая Llama, Falcon, StarCoder, BLOOM, GPT-NeoX и других.

В новую версию Text Generation Inference добавлена поддержка модели Command R+.

Используя возможности Medusa heads, на тестах достигается беспрецедентная скорость с задержкой всего в 9 мс на токен для модели 104B!

Github
Установка

@DevspПодписаться
​​🔥Создание 3D-моделей из плоской картинки с помощью DUSt3R

DUSt3R — новый подход геометрического конструирования 3D на основе 2D (Dense and Unconstrained Stereo 3D Reconstruction).

DUSt3R не требует калибровки камеры или данных о точке обзора.

🖥GitHub

@DevspПодписаться
​​🚀 Introducing YOLO-NAS Pose : A Game-Changer in Pose Estimation

YOLO-NAS обеспечивает современную производительность с непревзойденной точностью и скоростью, превосходя другие модели, такие как YOLOv5, YOLOv6, YOLOv7 и YOLOv8.

Для решения различных задач модель выпускается в четырех вариантах, каждый из которых имеет свой размер и время задержки.

Также доступна модель YOLO-NAS-POSE для оценки позы, обеспечивающая современный компромисс между точностью и производительностью.

🖥 Github: https://github.com/Deci-AI/super-gradients

📕Notebookhttps://colab.research.google.com/drive/1O4N5Vbzv0rfkT81LQidPktX8RtoS5A40

🚀 Demo: https://huggingface.co/spaces/Deci/YOLO-NAS-Pose-Demo

🌐 Colab: https://colab.research.google.com/drive/1agLj0aGx48C_rZPrTkeA18kuncack6lF

@DevspПодписаться
👍1
​​⚡️ EntitySeg Toolbox: Towards open-world and high-quality image segmentation

EntitySeg — это набор инструментов с открытым исходным кодом, предназначенный для сегментации изображений в открытом мире и высокого качества.

🖥 Github: https://github.com/qqlu/entity

📕Paper: https://arxiv.org/abs/2311.03352v1

🌐 Dataset: https://paperswithcode.com/dataset/coco

@DevspПодписаться
​​🖥TORCH UNCERTAINTY

TorchUncertainty — это пакет, разработанный, чтобы помочь вам использовать методы количественной оценки неопределенности и сделать ваши глубокие нейронные сети более надежными.

TorchUncertainty в настоящее время поддерживает классификацию, вероятностную и точечную регрессию и сегментацию.

🖥 Github: https://github.com/ensta-u2is/torch-uncertainty

📕Paper: https://arxiv.org/abs/2311.01434v1

Project: https://llmrec.github.io/

👣Api: https://torch-uncertainty.github.io/api.html

🌐 Dataset: https://paperswithcode.com/dataset/cifar-10

@DevspПодписаться
​​⚡️ LLMRec: Large Language Models with Graph Augmentation for Recommendation

LLMRec — это новая структура, которая расширяет возможности рекомендателей за счет применения трех простых, но эффективных стратегий расширения графов на основе LLM к системе рекомендаций.

🖥 Github: https://github.com/hkuds/llmrec

📕Paper: https://arxiv.org/abs/2311.00423v1

Project: https://llmrec.github.io/

🌐 Dataset: https://llmrec.github.io/#

@DevspПодписаться