Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
628 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​📑 DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond

DocXChain - мощный инструментарий с открытым исходным кодом для синтаксического анализа документов, предназначенный для автоматического преобразования разнородной информации, содержащейся в неструктурированных документах, таких как текст, таблицы и диаграммы, схемы в структурированные представления, доступные для машинного чтения и манипулирования.

Предоставляются базовые возможности, включая обнаружение текста, распознавание текста, распознавание структуры таблиц и анализ макета.

🖥Github: https://github.com/alibabaresearch/advancedliteratemachinery

📕Paper: https://arxiv.org/abs/2310.12430v1

🚀Damo: https://damo.alibaba.com/labs/language-technology

@DevspПодписаться
​​🛠 Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling

SpokenNLP: официальный репозиторий кодовых баз широкого спектра исследовательских проектов, разработанных командой SpokenNLP Speech Lab, Alibaba Group.

🖥Github: https://github.com/alibaba-damo-academy/spokennlp

📕Paper: https://arxiv.org/pdf/2310.11772v1.pdf

🚀Dataset: https://paperswithcode.com/dataset/wikisection

@DevspПодписаться
​​👨 AG3D: Learning to Generate 3D Avatars from 2D Image Collections (ICCV 2023)

AG3D - Фреймворк для генерации трехмерных аватаров из двумерных изображений.

Метод фиксирует форму и деформацию тела и свободной одежды, используя целостный 3D-генератор и интегрируя эффективный и гибкий модуль артикуляции.

🖥Github: https://github.com/zj-dong/AG3D

📕Paper: https://arxiv.org/abs/2305.02312

🚀Video: https://youtu.be/niP1YhJXEBE

⭐️Project: https://zj-dong.github.io/AG3D/

@DevspПодписаться
​​🛂 ConsistentID : Portrait Generation with Multimodal Fine-Grained Identity Preserving

Consistent ID - новая модель, которая позволяет создавать различные персонализированные изображения для документов на основе текстовых промптов и исходного фото.

ConsistentID включает в себя два ключевых компонента: мультимодальный генератор подсказок для лица, который объединяет черты лица, соответствующие описания лица и общий контекст лица для повышения точности деталей лица, а также сеть сохранения идентификаторов, оптимизированную с помощью стратегии локализации внимания к лицу, направленную на сохранение согласованности идентификаторов.

Github: https://github.com/JackAILab/ConsistentID
Paper: https://arxiv.org/abs/2404.16771
Project: https://ssugarwh.github.io/consistentid.github.io/
Demo: http://consistentid.natapp1.cc/

@DevspПодписаться
​​🦙AgentTuning: Enabling Generalized Agent Abilities For LLMs.

AgentTuning - простой и эффективный метод расширения агентских возможностей для решения сложных задачи реального мира при сохранении всех возможностей ЛЛМ.

AgentTuning содержит датасет 1866 высококачественных взаимодействий, предназначенных для улучшения работы ИИ-агентов в 6 различных реальных задачах.

Результаты оценки показывают, что AgentTuning обеспечивает возможности агента LLM с надежным обобщением для невидимых задач агента, сохраняя при этом сильные общие языковые способности.

🖥Github: https://github.com/THUDM/AgentTuning

📕Paper: https://arxiv.org/abs/2310.12823

🤗 Model: https://huggingface.co/THUDM/agentlm-70b

🚀Dataset: https://huggingface.co/datasets/THUDM/AgentInstruct

⭐️Project: https://thudm.github.io/AgentTuning/

@DevspПодписаться
​​⭐️StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

StoryDiffusion - новый инструмент, для создания, последовательных историй: изображений и видео.

Модель позволяет создавать комиксы в различных стилях, с акцентом на последовательное повествование и поддержание единого стиля окружения, персонажей и их одежды.

Он может описывать текстовую историю с последовательными изображениями или видео, охватывающими богатое разнообразие контента.

Github: https://github.com/HVision-NKU/StoryDiffusion
Paper: https://arxiv.org/abs/2405.01434
Demo: https://storydiffusion.github.io

@DevspПодписаться
​​🚀 AI2 presents WildChat: 1M ChatGPT Interaction Logs in the Wild

WildChat представляет собой совокупность 1 миллиона реальных взаимодействий между пользователем и ChatGPT, характеризующихся широким спектром языков и разнообразием пользовательских подсказок.

Он был создан путем предложения бесплатного доступа к ChatGPT и GPT-4 в обмен на согласованный сбор истории чата.

Используя этот датасет, разработчики создали бота WildLlama-7b-user-assistant на базе Llama-2, который способен предсказывать как промптов пользователя, так и ответы, которые может выбрать Chatgpt.

proj: https://wildchat.allen.ai
abs: https://arxiv.org/abs/2405.01470

@DevspПодписаться
​​🔥 Prometheus-Eval 🔥

Prometheus — это семейство языковых моделей с открытым исходным кодом, специализирующееся на оценке других языковых моделей.

По сравнению с Prometheus 1 (13B), Prometheus 2 (8x7B) - обеспечивает более точные оценки моделей и также поддерживает оценку в формате попарного ранжирования (относительной классификации)!

Github: https://github.com/prometheus-eval/prometheus-eval
Paper: arxiv.org/abs/2405.01535

@DevspПодписаться
​​🌟OSWorld — среда для оценки мультимодальных AI-агентов

OSWorld — это первая в своем роде масштабируемая среда для мультимодальных агентов, поддерживающая постановку задач, оценку на основе выполнения и интерактивное обучение в разных операционных системах.

🖥GitHub
🟡Arxiv

@DevspПодписаться
​​⚡️Quivr — "Obsidian" с ИИ

Quivr, ваш второй мозг, который использует возможности GenerativeAI в качестве вашего личного помощника.

Даёт возможность легко делится своей базой знаний через публичную ссылку.

Quivr работает в автономном режиме, поэтому вы можете получить доступ к своим данным в любое время и в любом месте.

🖥GitHub
🟡Страничка Quivr

@DevspПодписаться
​​😎 OpenDevin

OpenDevin, проект с открытым исходным кодом, целью которого является копирование Devin, автономного инженера-программиста с искусственным интеллектом, который способен выполнять сложные инженерные задачи и активно сотрудничать с пользователями в проектах разработки программного обеспечения.

Этот проект стремится воспроизвести, улучшить и внедрить Devin с помощью сообщества открытого исходного кода.

▪️GitHub
▪️Страничка OpenDevin

@DevspПодписаться
🔥 SDK для YandexGPT API

При внедрении модели от Яндекса в свои проекты могут возникнуть некоторые проблемы: отсутствие официального SDK, множество способов авторизации, видов моделей и эндпоинтов API.

Команда AllSee решила эти проблемы, а также рассказала, зачем YandexGPT, когда есть ChatGPT.

Внутри готовый SDK для быстрой интеграции YandexGPT в любые python-приложения.

📝 Статья: https://habr.com/ru/articles/812979/

@DevspПодписаться
​​🧑‍💻StarCoder2-Instruct: Fully Transparent and Permissive Self-Alignment for Code Generation

StarCoder2-Instruct - это первый полностью самонастраивающийся LLM-разработчик кода с помощью конвейера Hugging Face.

Этот конвейер с открытым исходным кодом использует StarCoder2-15B для генерации тысяч пар инструкция-ответ, которые затем используются для точной настройки самого StarCoder-15B без каких-либо человеческих аннотаций или дистиллированных данных из огромных и проприетарных LLM.

▪️Blog: https://huggingface.co/blog/sc2-instruct
▪️Model: https://huggingface.co/bigcode/starcoder2-15b-instruct-v0.1
▪️Dataset: https://huggingface.co/datasets/bigcode/self-oss-instruct-sc2-exec-filter-50k
▪️Codehttps://github.com/bigcode-project/starcoder2-self-align

@DevspПодписаться
​​🔉 AudioSeal is the state of art audio watermarking model

AudioSeal - метод локализации речевых водяных знаков, обладающий высочайшей надежностью и скоростью обнаружения.

Он совместно обучает генератор, который встраивает водяной знак в аудио, и детектор, который обнаруживает фрагменты с водяными знаками в более длинных аудиофайлах, даже при наличии редактирования.

Audioseal оснащен быстрым однопроходным детектором, который значительно превосходит по скорости существующие модели: обнаружение происходит на два порядка быстрее, что делает его идеальным для крупномасштабных приложений, работающих в режиме реального времени.

Github: https://github.com/facebookresearch/audioseal
Paper: https://arxiv.org/abs/2401.17264
Colab: https://colab.research.google.com/github/facebookresearch/audioseal/blob/master/examples/colab.ipynb
HF: https://huggingface.co/facebook/audioseal

@DevspПодписаться
​​🌟 Introduction to Granite Code Models

IBM выпустили Granite Code Models: семейство моделей Open Foundation для интеллектуального анализа и генерации кода.

Модели Granite Code Base обучаются на токенах 3–4T кодовых данных и наборах данных естественного языка, связанных с кодом.

Данные токенизируются посредством кодирования пар байтов (BPE) с использованием того же токенизатора, что и StarCoder.

Модели отлично справляются с задачами генерации кода, исправления багов объяснения кода, генерации документации к кода.

Github: https://github.com/ibm-granite/granite-code-models
Paper: https://arxiv.org/abs/2405.04324
HF: https://huggingface.co/collections/ibm-granite/granite-code-models-6624c5cec322e4c148c8b330

@DevspПодписаться
​​⚡️ Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images

Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.

Deblur-GS неизменно обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, о чем свидетельствуют оценки, проведенные как на синтетических, так и на реальных наборах данных.

▪️Code: https://github.com/Chaphlagical/Deblur-GS
▪️Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
▪️Project: https://chaphlagical.icu/Deblur-GS/

@DevspПодписаться
​​⚡️ Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images

Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.

Deblur-GS неизменно обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, о чем свидетельствуют оценки, проведенные как на синтетических, так и на реальных наборах данных.

▪️Code: https://github.com/Chaphlagical/Deblur-GS
▪️Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
▪️Project: https://chaphlagical.icu/Deblur-GS/

@DevspПодписаться
​​🔦 IC-Light: Imposing Consistent Light

IC-Light — проект по управлению освещением изображений.

Внутри два типа моделей: модель изменения освещения с из тектовых промптов и модель изменения подсветки фона изображений.

▪️Github: https://github.com/lllyasviel/IC-Light
▪️Jupyter: https://github.com/camenduru/IC-Light-jupyter
▪️Demo: https://huggingface.co/spaces/lllyasviel/IC-Light

@DevspПодписаться