NEW BOT Телеграм, страница

Data Science | Machinelearning [ru]

🔇Efficient Large-Scale Audio Tagging

Трансформеры доминируют в области по работе с адуио и заменили CNN в качестве современной нейросетевой архитектуры.

Трансформеры отлично справляются с огромными аудио датасетами и подходят для создания мощных предварительно обученных моделей.

В данной модели используются динамические CNN, которые достигают лучшей производительности на задачах разметки аудио данных и хорошо масштабируются, достигая производительности трансформеров и даже превосходя их.

🖥Github: https://github.com/fschmid56/efficientat

📕Paper: https://arxiv.org/abs/2310.15648v1

⏩Demo: https://21527a47f03813481c.gradio.live/

@Devsp — Подписаться

3.2K views12:08

Data Science | Machinelearning [ru]

🗣 OpenVoice V2 - a Text-to-Speech model that can clone any voice and speak in any language

OpenVoice V2 - новая версия открытой модели преобразования текста в речь, которая позволяет клонировать любой голос и генерировать речь на различных языках.

• Github: https://github.com/myshell-ai/OpenVoice/tree/main
• Usage: https://github.com/myshell-ai/OpenVoice/blob/main/docs/USAGE.md

@Devsp — Подписаться

1:26

3.21K views17:30

Data Science | Machinelearning [ru]

🔥 FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent

Сквозной дифференцируемый метод, который определяет точные позы камеры, внутренние характеристики камеры и покадровую плотную глубину видеопоследовательности.

Этот метод не только намного превосходит предшествующие методы корректировки пакетов на основе градиентного спуска, но и удивительно работает наравне с COLMAP, современным методом SfM, в последующей задаче синтеза новых представлений на 360 градусов.

• Github: https://github.com/dcharatan/flowmap
• Paper: https://arxiv.org/abs/2404.15259
• Dataset: https://drive.google.com/drive/folders/1PqByQSfzyLjfdZZDwn6RXIECso7WB9IY

@Devsp — Подписаться

3.25K views12:07

Data Science | Machinelearning [ru]

⚡️ UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

UniMERNet значительно превосходит основные модели в распознавании реальных математических выражений, демонстрируя превосходную производительность для простых печатных выражений (SPE), сложных печатных выражений (CPE), выражений, снятых с экрана (SCE) и рукописных выражений (HWE), о чем свидетельствуют сравнительная оценка BLEU Score.

• Github: https://github.com/opendatalab/unimernet
• Paper: https://arxiv.org/abs/2404.15254
• HF: https://huggingface.co/wanderkid/unimernet

@Devsp — Подписаться

3.25K views17:07

Data Science | Machinelearning [ru]

🔎 Moving Object Segmentation:All You Need Is SAM (and Flow)

FlowSAM - новый инструмент для обнаружения и сегментации движущихся объектов на видео, который значительно превосходит все предыдущие модели, как для одного объекта, так и для множества объектов.

▪️ Project page: https://www.robots.ox.ac.uk/~vgg/research/flowsam/
▪️ Code: https://github.com/Jyxarthur/flowsam
▪️Paper: https://arxiv.org/abs/2404.12389
▪️ Data: https://drive.google.com/drive/folders/1tmDq_vG_BvY5po40Ux5OBds1avUM_CbR

@Devsp — Подписаться

2.9K views07:07

Data Science | Machinelearning [ru]

2.98K views12:07

Data Science | Machinelearning [ru]

➕OpenBioLLM-Llama3-70B и 8B: Open-source Large Language Models in Medical Domain

OpenBioLLM-Llama3-70B и 8B: самые эффективные и доступные на сегодняшний день Lms.

Они превосходят таких гигантов индустрии, как GPT-4, Gemini, Meditron-70B, Med-PaLM-1 и Med-PaLM-2, в области биомедицины.

- 70B : https://huggingface.co/aaditya/OpenBioLLM-Llama3-70B
- 8B : https://huggingface.co/aaditya/OpenBioLLM-Llama3-8B
- Таблица лидеров в области медицины: https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard

@Devsp — Подписаться

3.17K views17:07

Data Science | Machinelearning [ru]

🦩 Woodpecker: Hallucination Correction for Multimodal Large Language Models

Большие языковые модели могут вызывать галлюцинации и генерировать ложную информацию, что приводит к потенциальной дезинформации и путанице.

Для борьбы с галлюцинациями в современных исследованиях в основном используется метод настройки по инструкции, требующий переобучения моделей на конкретных данных.

В данной работе предлагается иной подход, представляя метод не требующий переобучения модели, который называется Woodpecker.

🖥Github: https://github.com/bradyfu/woodpecker

📕Paper: https://arxiv.org/abs/2310.15110v1

⏩Demo: https://21527a47f03813481c.gradio.live/

@Devsp — Подписаться

3.13K views17:07

Data Science | Machinelearning [ru]

🖥AutoGen

AutoGen — это платформа, позволяющая разрабатывать приложения LLM с использованием нескольких агентов, которые могут взаимодействовать друг с другом для решения задач.

Агенты AutoGen настраиваемы, доступны для общения и легко допускают участие человека.

Они могут работать в различных режимах, в которых используются комбинации LLM, человеческого участия и инструментов.

🖥Github: https://github.com/microsoft/autogen

📕Project: https://microsoft.github.io/autogen/

🤗 FLAML.: https://github.com/microsoft/FLAML

@Devsp — Подписаться

3.04K views12:07

Data Science | Machinelearning [ru]

🐾 Putting the Object Back into Video Object Segmentation (Cutie)

Cutie - это фреймворк для сегментации видеообъектов, обладающий большей высокой производительностью, устойчивостью и скоростью.

Cutie четко отделяет семантику объекта переднего плана от фона. На сложном наборе данных MOSE Cutie превосходит все предыдущие методы сегментации.

Cutie выполняет чтение памяти на уровне объектов сверху вниз, адаптируя небольшой набор объектных запросов для реструктуризации и итеративного взаимодействия с восходящими пиксельными функциями с помощью преобразователя объектов на основе запросов.

🖥Github: https://github.com/hkchengrex/Cutie

🖥Colab: https://colab.research.google.com/drive/1yo43XTbjxuWA7XgCUO9qxAi7wBI6HzvP?usp=sharing

📕Paper: https://arxiv.org/abs/2310.12982v1

🚀Project: https://hkchengrex.github.io/Cutie/

@Devsp — Подписаться

2.82K views12:07

Data Science | Machinelearning [ru]

📑 DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond

DocXChain - мощный инструментарий с открытым исходным кодом для синтаксического анализа документов, предназначенный для автоматического преобразования разнородной информации, содержащейся в неструктурированных документах, таких как текст, таблицы и диаграммы, схемы в структурированные представления, доступные для машинного чтения и манипулирования.

Предоставляются базовые возможности, включая обнаружение текста, распознавание текста, распознавание структуры таблиц и анализ макета.

🖥Github: https://github.com/alibabaresearch/advancedliteratemachinery

📕Paper: https://arxiv.org/abs/2310.12430v1

🚀Damo: https://damo.alibaba.com/labs/language-technology

@Devsp — Подписаться

2.89K views17:07

Data Science | Machinelearning [ru]

🛠 Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling

SpokenNLP: официальный репозиторий кодовых баз широкого спектра исследовательских проектов, разработанных командой SpokenNLP Speech Lab, Alibaba Group.

🖥Github: https://github.com/alibaba-damo-academy/spokennlp

📕Paper: https://arxiv.org/pdf/2310.11772v1.pdf

🚀Dataset: https://paperswithcode.com/dataset/wikisection

@Devsp — Подписаться

2.67K views12:07

Data Science | Machinelearning [ru]

👨 AG3D: Learning to Generate 3D Avatars from 2D Image Collections (ICCV 2023)

AG3D - Фреймворк для генерации трехмерных аватаров из двумерных изображений.

Метод фиксирует форму и деформацию тела и свободной одежды, используя целостный 3D-генератор и интегрируя эффективный и гибкий модуль артикуляции.

🖥Github: https://github.com/zj-dong/AG3D

📕Paper: https://arxiv.org/abs/2305.02312

🚀Video: https://youtu.be/niP1YhJXEBE

⭐️Project: https://zj-dong.github.io/AG3D/

@Devsp — Подписаться

2.73K views12:10

Data Science | Machinelearning [ru]

🛂 ConsistentID : Portrait Generation with Multimodal Fine-Grained Identity Preserving

Consistent ID - новая модель, которая позволяет создавать различные персонализированные изображения для документов на основе текстовых промптов и исходного фото.

ConsistentID включает в себя два ключевых компонента: мультимодальный генератор подсказок для лица, который объединяет черты лица, соответствующие описания лица и общий контекст лица для повышения точности деталей лица, а также сеть сохранения идентификаторов, оптимизированную с помощью стратегии локализации внимания к лицу, направленную на сохранение согласованности идентификаторов.

• Github: https://github.com/JackAILab/ConsistentID
• Paper: https://arxiv.org/abs/2404.16771
• Project: https://ssugarwh.github.io/consistentid.github.io/
• Demo: http://consistentid.natapp1.cc/

@Devsp — Подписаться

2.69K views17:07

Data Science | Machinelearning [ru]

🦙AgentTuning: Enabling Generalized Agent Abilities For LLMs.

AgentTuning - простой и эффективный метод расширения агентских возможностей для решения сложных задачи реального мира при сохранении всех возможностей ЛЛМ.

AgentTuning содержит датасет 1866 высококачественных взаимодействий, предназначенных для улучшения работы ИИ-агентов в 6 различных реальных задачах.

Результаты оценки показывают, что AgentTuning обеспечивает возможности агента LLM с надежным обобщением для невидимых задач агента, сохраняя при этом сильные общие языковые способности.

🖥Github: https://github.com/THUDM/AgentTuning

📕Paper: https://arxiv.org/abs/2310.12823

🤗 Model: https://huggingface.co/THUDM/agentlm-70b

🚀Dataset: https://huggingface.co/datasets/THUDM/AgentInstruct

⭐️Project: https://thudm.github.io/AgentTuning/

@Devsp — Подписаться

2.95K views12:09

Data Science | Machinelearning [ru]

⭐️StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

StoryDiffusion - новый инструмент, для создания, последовательных историй: изображений и видео.

Модель позволяет создавать комиксы в различных стилях, с акцентом на последовательное повествование и поддержание единого стиля окружения, персонажей и их одежды.

Он может описывать текстовую историю с последовательными изображениями или видео, охватывающими богатое разнообразие контента.

• Github: https://github.com/HVision-NKU/StoryDiffusion
• Paper: https://arxiv.org/abs/2405.01434
• Demo: https://storydiffusion.github.io

@Devsp — Подписаться

2.66K views17:08

Data Science | Machinelearning [ru]

🚀 AI2 presents WildChat: 1M ChatGPT Interaction Logs in the Wild

WildChat представляет собой совокупность 1 миллиона реальных взаимодействий между пользователем и ChatGPT, характеризующихся широким спектром языков и разнообразием пользовательских подсказок.

Он был создан путем предложения бесплатного доступа к ChatGPT и GPT-4 в обмен на согласованный сбор истории чата.

Используя этот датасет, разработчики создали бота WildLlama-7b-user-assistant на базе Llama-2, который способен предсказывать как промптов пользователя, так и ответы, которые может выбрать Chatgpt.

• proj: https://wildchat.allen.ai
• abs: https://arxiv.org/abs/2405.01470

@Devsp — Подписаться

2.68K views12:08

Data Science | Machinelearning [ru]

🔥 Prometheus-Eval 🔥

Prometheus — это семейство языковых моделей с открытым исходным кодом, специализирующееся на оценке других языковых моделей.

По сравнению с Prometheus 1 (13B), Prometheus 2 (8x7B) - обеспечивает более точные оценки моделей и также поддерживает оценку в формате попарного ранжирования (относительной классификации)!

• Github: https://github.com/prometheus-eval/prometheus-eval
• Paper: arxiv.org/abs/2405.01535

@Devsp — Подписаться

2.87K views17:09

Data Science | Machinelearning [ru]

🌟OSWorld — среда для оценки мультимодальных AI-агентов

OSWorld — это первая в своем роде масштабируемая среда для мультимодальных агентов, поддерживающая постановку задач, оценку на основе выполнения и интерактивное обучение в разных операционных системах.

🖥GitHub
🟡Arxiv

@Devsp — Подписаться

3.03K views12:07

Data Science | Machinelearning [ru]

⚡️Quivr — "Obsidian" с ИИ

Quivr, ваш второй мозг, который использует возможности GenerativeAI в качестве вашего личного помощника.

Даёт возможность легко делится своей базой знаний через публичную ссылку.

Quivr работает в автономном режиме, поэтому вы можете получить доступ к своим данным в любое время и в любом месте.

🖥GitHub
🟡Страничка Quivr

@Devsp — Подписаться

3.06K views17:07

Data Science | Machinelearning [ru]

😎 OpenDevin

OpenDevin, проект с открытым исходным кодом, целью которого является копирование Devin, автономного инженера-программиста с искусственным интеллектом, который способен выполнять сложные инженерные задачи и активно сотрудничать с пользователями в проектах разработки программного обеспечения.

Этот проект стремится воспроизвести, улучшить и внедрить Devin с помощью сообщества открытого исходного кода.

▪️GitHub
▪️Страничка OpenDevin

@Devsp — Подписаться

2.84K views12:07

About

Blog

Apps

Platform