🐾 Putting the Object Back into Video Object Segmentation (Cutie)
Cutie - это фреймворк для сегментации видеообъектов, обладающий большей высокой производительностью, устойчивостью и скоростью.
Cutie четко отделяет семантику объекта переднего плана от фона. На сложном наборе данных MOSE Cutie превосходит все предыдущие методы сегментации.
Cutie выполняет чтение памяти на уровне объектов сверху вниз, адаптируя небольшой набор объектных запросов для реструктуризации и итеративного взаимодействия с восходящими пиксельными функциями с помощью преобразователя объектов на основе запросов.
🖥Github: https://github.com/hkchengrex/Cutie
🖥Colab: https://colab.research.google.com/drive/1yo43XTbjxuWA7XgCUO9qxAi7wBI6HzvP?usp=sharing
📕Paper: https://arxiv.org/abs/2310.12982v1
🚀Project: https://hkchengrex.github.io/Cutie/
@Devsp — Подписаться
Cutie - это фреймворк для сегментации видеообъектов, обладающий большей высокой производительностью, устойчивостью и скоростью.
Cutie четко отделяет семантику объекта переднего плана от фона. На сложном наборе данных MOSE Cutie превосходит все предыдущие методы сегментации.
Cutie выполняет чтение памяти на уровне объектов сверху вниз, адаптируя небольшой набор объектных запросов для реструктуризации и итеративного взаимодействия с восходящими пиксельными функциями с помощью преобразователя объектов на основе запросов.
🖥Github: https://github.com/hkchengrex/Cutie
🖥Colab: https://colab.research.google.com/drive/1yo43XTbjxuWA7XgCUO9qxAi7wBI6HzvP?usp=sharing
📕Paper: https://arxiv.org/abs/2310.12982v1
🚀Project: https://hkchengrex.github.io/Cutie/
@Devsp — Подписаться
📑 DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond
DocXChain - мощный инструментарий с открытым исходным кодом для синтаксического анализа документов, предназначенный для автоматического преобразования разнородной информации, содержащейся в неструктурированных документах, таких как текст, таблицы и диаграммы, схемы в структурированные представления, доступные для машинного чтения и манипулирования.
Предоставляются базовые возможности, включая обнаружение текста, распознавание текста, распознавание структуры таблиц и анализ макета.
🖥Github: https://github.com/alibabaresearch/advancedliteratemachinery
📕Paper: https://arxiv.org/abs/2310.12430v1
🚀Damo: https://damo.alibaba.com/labs/language-technology
@Devsp — Подписаться
DocXChain - мощный инструментарий с открытым исходным кодом для синтаксического анализа документов, предназначенный для автоматического преобразования разнородной информации, содержащейся в неструктурированных документах, таких как текст, таблицы и диаграммы, схемы в структурированные представления, доступные для машинного чтения и манипулирования.
Предоставляются базовые возможности, включая обнаружение текста, распознавание текста, распознавание структуры таблиц и анализ макета.
🖥Github: https://github.com/alibabaresearch/advancedliteratemachinery
📕Paper: https://arxiv.org/abs/2310.12430v1
🚀Damo: https://damo.alibaba.com/labs/language-technology
@Devsp — Подписаться
🛠 Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling
SpokenNLP: официальный репозиторий кодовых баз широкого спектра исследовательских проектов, разработанных командой SpokenNLP Speech Lab, Alibaba Group.
🖥Github: https://github.com/alibaba-damo-academy/spokennlp
📕Paper: https://arxiv.org/pdf/2310.11772v1.pdf
🚀Dataset: https://paperswithcode.com/dataset/wikisection
@Devsp — Подписаться
SpokenNLP: официальный репозиторий кодовых баз широкого спектра исследовательских проектов, разработанных командой SpokenNLP Speech Lab, Alibaba Group.
🖥Github: https://github.com/alibaba-damo-academy/spokennlp
📕Paper: https://arxiv.org/pdf/2310.11772v1.pdf
🚀Dataset: https://paperswithcode.com/dataset/wikisection
@Devsp — Подписаться
👨 AG3D: Learning to Generate 3D Avatars from 2D Image Collections (ICCV 2023)
AG3D - Фреймворк для генерации трехмерных аватаров из двумерных изображений.
Метод фиксирует форму и деформацию тела и свободной одежды, используя целостный 3D-генератор и интегрируя эффективный и гибкий модуль артикуляции.
🖥Github: https://github.com/zj-dong/AG3D
📕Paper: https://arxiv.org/abs/2305.02312
🚀Video: https://youtu.be/niP1YhJXEBE
⭐️Project: https://zj-dong.github.io/AG3D/
@Devsp — Подписаться
AG3D - Фреймворк для генерации трехмерных аватаров из двумерных изображений.
Метод фиксирует форму и деформацию тела и свободной одежды, используя целостный 3D-генератор и интегрируя эффективный и гибкий модуль артикуляции.
🖥Github: https://github.com/zj-dong/AG3D
📕Paper: https://arxiv.org/abs/2305.02312
🚀Video: https://youtu.be/niP1YhJXEBE
⭐️Project: https://zj-dong.github.io/AG3D/
@Devsp — Подписаться
🛂 ConsistentID : Portrait Generation with Multimodal Fine-Grained Identity Preserving
Consistent ID - новая модель, которая позволяет создавать различные персонализированные изображения для документов на основе текстовых промптов и исходного фото.
ConsistentID включает в себя два ключевых компонента: мультимодальный генератор подсказок для лица, который объединяет черты лица, соответствующие описания лица и общий контекст лица для повышения точности деталей лица, а также сеть сохранения идентификаторов, оптимизированную с помощью стратегии локализации внимания к лицу, направленную на сохранение согласованности идентификаторов.
• Github: https://github.com/JackAILab/ConsistentID
• Paper: https://arxiv.org/abs/2404.16771
• Project: https://ssugarwh.github.io/consistentid.github.io/
• Demo: http://consistentid.natapp1.cc/
@Devsp — Подписаться
Consistent ID - новая модель, которая позволяет создавать различные персонализированные изображения для документов на основе текстовых промптов и исходного фото.
ConsistentID включает в себя два ключевых компонента: мультимодальный генератор подсказок для лица, который объединяет черты лица, соответствующие описания лица и общий контекст лица для повышения точности деталей лица, а также сеть сохранения идентификаторов, оптимизированную с помощью стратегии локализации внимания к лицу, направленную на сохранение согласованности идентификаторов.
• Github: https://github.com/JackAILab/ConsistentID
• Paper: https://arxiv.org/abs/2404.16771
• Project: https://ssugarwh.github.io/consistentid.github.io/
• Demo: http://consistentid.natapp1.cc/
@Devsp — Подписаться
🦙AgentTuning: Enabling Generalized Agent Abilities For LLMs.
AgentTuning - простой и эффективный метод расширения агентских возможностей для решения сложных задачи реального мира при сохранении всех возможностей ЛЛМ.
AgentTuning содержит датасет 1866 высококачественных взаимодействий, предназначенных для улучшения работы ИИ-агентов в 6 различных реальных задачах.
Результаты оценки показывают, что AgentTuning обеспечивает возможности агента LLM с надежным обобщением для невидимых задач агента, сохраняя при этом сильные общие языковые способности.
🖥Github: https://github.com/THUDM/AgentTuning
📕Paper: https://arxiv.org/abs/2310.12823
🤗 Model: https://huggingface.co/THUDM/agentlm-70b
🚀Dataset: https://huggingface.co/datasets/THUDM/AgentInstruct
⭐️Project: https://thudm.github.io/AgentTuning/
@Devsp — Подписаться
AgentTuning - простой и эффективный метод расширения агентских возможностей для решения сложных задачи реального мира при сохранении всех возможностей ЛЛМ.
AgentTuning содержит датасет 1866 высококачественных взаимодействий, предназначенных для улучшения работы ИИ-агентов в 6 различных реальных задачах.
Результаты оценки показывают, что AgentTuning обеспечивает возможности агента LLM с надежным обобщением для невидимых задач агента, сохраняя при этом сильные общие языковые способности.
🖥Github: https://github.com/THUDM/AgentTuning
📕Paper: https://arxiv.org/abs/2310.12823
🤗 Model: https://huggingface.co/THUDM/agentlm-70b
🚀Dataset: https://huggingface.co/datasets/THUDM/AgentInstruct
⭐️Project: https://thudm.github.io/AgentTuning/
@Devsp — Подписаться
⭐️StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
StoryDiffusion - новый инструмент, для создания, последовательных историй: изображений и видео.
Модель позволяет создавать комиксы в различных стилях, с акцентом на последовательное повествование и поддержание единого стиля окружения, персонажей и их одежды.
Он может описывать текстовую историю с последовательными изображениями или видео, охватывающими богатое разнообразие контента.
• Github: https://github.com/HVision-NKU/StoryDiffusion
• Paper: https://arxiv.org/abs/2405.01434
• Demo: https://storydiffusion.github.io
@Devsp — Подписаться
StoryDiffusion - новый инструмент, для создания, последовательных историй: изображений и видео.
Модель позволяет создавать комиксы в различных стилях, с акцентом на последовательное повествование и поддержание единого стиля окружения, персонажей и их одежды.
Он может описывать текстовую историю с последовательными изображениями или видео, охватывающими богатое разнообразие контента.
• Github: https://github.com/HVision-NKU/StoryDiffusion
• Paper: https://arxiv.org/abs/2405.01434
• Demo: https://storydiffusion.github.io
@Devsp — Подписаться
🚀 AI2 presents WildChat: 1M ChatGPT Interaction Logs in the Wild
WildChat представляет собой совокупность 1 миллиона реальных взаимодействий между пользователем и ChatGPT, характеризующихся широким спектром языков и разнообразием пользовательских подсказок.
Он был создан путем предложения бесплатного доступа к ChatGPT и GPT-4 в обмен на согласованный сбор истории чата.
Используя этот датасет, разработчики создали бота WildLlama-7b-user-assistant на базе Llama-2, который способен предсказывать как промптов пользователя, так и ответы, которые может выбрать Chatgpt.
• proj: https://wildchat.allen.ai
• abs: https://arxiv.org/abs/2405.01470
@Devsp — Подписаться
WildChat представляет собой совокупность 1 миллиона реальных взаимодействий между пользователем и ChatGPT, характеризующихся широким спектром языков и разнообразием пользовательских подсказок.
Он был создан путем предложения бесплатного доступа к ChatGPT и GPT-4 в обмен на согласованный сбор истории чата.
Используя этот датасет, разработчики создали бота WildLlama-7b-user-assistant на базе Llama-2, который способен предсказывать как промптов пользователя, так и ответы, которые может выбрать Chatgpt.
• proj: https://wildchat.allen.ai
• abs: https://arxiv.org/abs/2405.01470
@Devsp — Подписаться
🔥 Prometheus-Eval 🔥
Prometheus — это семейство языковых моделей с открытым исходным кодом, специализирующееся на оценке других языковых моделей.
По сравнению с Prometheus 1 (13B), Prometheus 2 (8x7B) - обеспечивает более точные оценки моделей и также поддерживает оценку в формате попарного ранжирования (относительной классификации)!
• Github: https://github.com/prometheus-eval/prometheus-eval
• Paper: arxiv.org/abs/2405.01535
@Devsp — Подписаться
Prometheus — это семейство языковых моделей с открытым исходным кодом, специализирующееся на оценке других языковых моделей.
По сравнению с Prometheus 1 (13B), Prometheus 2 (8x7B) - обеспечивает более точные оценки моделей и также поддерживает оценку в формате попарного ранжирования (относительной классификации)!
• Github: https://github.com/prometheus-eval/prometheus-eval
• Paper: arxiv.org/abs/2405.01535
@Devsp — Подписаться
🌟OSWorld — среда для оценки мультимодальных AI-агентов
OSWorld — это первая в своем роде масштабируемая среда для мультимодальных агентов, поддерживающая постановку задач, оценку на основе выполнения и интерактивное обучение в разных операционных системах.
🖥GitHub
🟡Arxiv
@Devsp — Подписаться
OSWorld — это первая в своем роде масштабируемая среда для мультимодальных агентов, поддерживающая постановку задач, оценку на основе выполнения и интерактивное обучение в разных операционных системах.
🖥GitHub
🟡Arxiv
@Devsp — Подписаться
⚡️Quivr — "Obsidian" с ИИ
Quivr, ваш второй мозг, который использует возможности GenerativeAI в качестве вашего личного помощника.
Даёт возможность легко делится своей базой знаний через публичную ссылку.
Quivr работает в автономном режиме, поэтому вы можете получить доступ к своим данным в любое время и в любом месте.
🖥GitHub
🟡Страничка Quivr
@Devsp — Подписаться
Quivr, ваш второй мозг, который использует возможности GenerativeAI в качестве вашего личного помощника.
Даёт возможность легко делится своей базой знаний через публичную ссылку.
Quivr работает в автономном режиме, поэтому вы можете получить доступ к своим данным в любое время и в любом месте.
🖥GitHub
🟡Страничка Quivr
@Devsp — Подписаться
😎 OpenDevin
OpenDevin, проект с открытым исходным кодом, целью которого является копирование Devin, автономного инженера-программиста с искусственным интеллектом, который способен выполнять сложные инженерные задачи и активно сотрудничать с пользователями в проектах разработки программного обеспечения.
Этот проект стремится воспроизвести, улучшить и внедрить Devin с помощью сообщества открытого исходного кода.
▪️GitHub
▪️Страничка OpenDevin
@Devsp — Подписаться
OpenDevin, проект с открытым исходным кодом, целью которого является копирование Devin, автономного инженера-программиста с искусственным интеллектом, который способен выполнять сложные инженерные задачи и активно сотрудничать с пользователями в проектах разработки программного обеспечения.
Этот проект стремится воспроизвести, улучшить и внедрить Devin с помощью сообщества открытого исходного кода.
▪️GitHub
▪️Страничка OpenDevin
@Devsp — Подписаться
🔥 SDK для YandexGPT API
При внедрении модели от Яндекса в свои проекты могут возникнуть некоторые проблемы: отсутствие официального SDK, множество способов авторизации, видов моделей и эндпоинтов API.
Команда AllSee решила эти проблемы, а также рассказала, зачем YandexGPT, когда есть ChatGPT.
Внутри готовый SDK для быстрой интеграции YandexGPT в любые python-приложения.
📝 Статья: https://habr.com/ru/articles/812979/
@Devsp — Подписаться
При внедрении модели от Яндекса в свои проекты могут возникнуть некоторые проблемы: отсутствие официального SDK, множество способов авторизации, видов моделей и эндпоинтов API.
Команда AllSee решила эти проблемы, а также рассказала, зачем YandexGPT, когда есть ChatGPT.
Внутри готовый SDK для быстрой интеграции YandexGPT в любые python-приложения.
📝 Статья: https://habr.com/ru/articles/812979/
@Devsp — Подписаться
🧑💻StarCoder2-Instruct: Fully Transparent and Permissive Self-Alignment for Code Generation
StarCoder2-Instruct - это первый полностью самонастраивающийся LLM-разработчик кода с помощью конвейера Hugging Face.
Этот конвейер с открытым исходным кодом использует StarCoder2-15B для генерации тысяч пар инструкция-ответ, которые затем используются для точной настройки самого StarCoder-15B без каких-либо человеческих аннотаций или дистиллированных данных из огромных и проприетарных LLM.
▪️Blog: https://huggingface.co/blog/sc2-instruct
▪️Model: https://huggingface.co/bigcode/starcoder2-15b-instruct-v0.1
▪️Dataset: https://huggingface.co/datasets/bigcode/self-oss-instruct-sc2-exec-filter-50k
▪️Code: https://github.com/bigcode-project/starcoder2-self-align
@Devsp — Подписаться
StarCoder2-Instruct - это первый полностью самонастраивающийся LLM-разработчик кода с помощью конвейера Hugging Face.
Этот конвейер с открытым исходным кодом использует StarCoder2-15B для генерации тысяч пар инструкция-ответ, которые затем используются для точной настройки самого StarCoder-15B без каких-либо человеческих аннотаций или дистиллированных данных из огромных и проприетарных LLM.
▪️Blog: https://huggingface.co/blog/sc2-instruct
▪️Model: https://huggingface.co/bigcode/starcoder2-15b-instruct-v0.1
▪️Dataset: https://huggingface.co/datasets/bigcode/self-oss-instruct-sc2-exec-filter-50k
▪️Code: https://github.com/bigcode-project/starcoder2-self-align
@Devsp — Подписаться
🔉 AudioSeal is the state of art audio watermarking model
AudioSeal - метод локализации речевых водяных знаков, обладающий высочайшей надежностью и скоростью обнаружения.
Он совместно обучает генератор, который встраивает водяной знак в аудио, и детектор, который обнаруживает фрагменты с водяными знаками в более длинных аудиофайлах, даже при наличии редактирования.
Audioseal оснащен быстрым однопроходным детектором, который значительно превосходит по скорости существующие модели: обнаружение происходит на два порядка быстрее, что делает его идеальным для крупномасштабных приложений, работающих в режиме реального времени.
▪Github: https://github.com/facebookresearch/audioseal
▪Paper: https://arxiv.org/abs/2401.17264
▪Colab: https://colab.research.google.com/github/facebookresearch/audioseal/blob/master/examples/colab.ipynb
▪HF: https://huggingface.co/facebook/audioseal
@Devsp — Подписаться
AudioSeal - метод локализации речевых водяных знаков, обладающий высочайшей надежностью и скоростью обнаружения.
Он совместно обучает генератор, который встраивает водяной знак в аудио, и детектор, который обнаруживает фрагменты с водяными знаками в более длинных аудиофайлах, даже при наличии редактирования.
Audioseal оснащен быстрым однопроходным детектором, который значительно превосходит по скорости существующие модели: обнаружение происходит на два порядка быстрее, что делает его идеальным для крупномасштабных приложений, работающих в режиме реального времени.
▪Github: https://github.com/facebookresearch/audioseal
▪Paper: https://arxiv.org/abs/2401.17264
▪Colab: https://colab.research.google.com/github/facebookresearch/audioseal/blob/master/examples/colab.ipynb
▪HF: https://huggingface.co/facebook/audioseal
@Devsp — Подписаться
🌟 Introduction to Granite Code Models
IBM выпустили Granite Code Models: семейство моделей Open Foundation для интеллектуального анализа и генерации кода.
Модели Granite Code Base обучаются на токенах 3–4T кодовых данных и наборах данных естественного языка, связанных с кодом.
Данные токенизируются посредством кодирования пар байтов (BPE) с использованием того же токенизатора, что и StarCoder.
Модели отлично справляются с задачами генерации кода, исправления багов объяснения кода, генерации документации к кода.
▪Github: https://github.com/ibm-granite/granite-code-models
▪Paper: https://arxiv.org/abs/2405.04324
▪HF: https://huggingface.co/collections/ibm-granite/granite-code-models-6624c5cec322e4c148c8b330
@Devsp — Подписаться
IBM выпустили Granite Code Models: семейство моделей Open Foundation для интеллектуального анализа и генерации кода.
Модели Granite Code Base обучаются на токенах 3–4T кодовых данных и наборах данных естественного языка, связанных с кодом.
Данные токенизируются посредством кодирования пар байтов (BPE) с использованием того же токенизатора, что и StarCoder.
Модели отлично справляются с задачами генерации кода, исправления багов объяснения кода, генерации документации к кода.
▪Github: https://github.com/ibm-granite/granite-code-models
▪Paper: https://arxiv.org/abs/2405.04324
▪HF: https://huggingface.co/collections/ibm-granite/granite-code-models-6624c5cec322e4c148c8b330
@Devsp — Подписаться
⚡️ Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images
Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.
Deblur-GS неизменно обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, о чем свидетельствуют оценки, проведенные как на синтетических, так и на реальных наборах данных.
▪️Code: https://github.com/Chaphlagical/Deblur-GS
▪️Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
▪️Project: https://chaphlagical.icu/Deblur-GS/
@Devsp — Подписаться
Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.
Deblur-GS неизменно обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, о чем свидетельствуют оценки, проведенные как на синтетических, так и на реальных наборах данных.
▪️Code: https://github.com/Chaphlagical/Deblur-GS
▪️Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
▪️Project: https://chaphlagical.icu/Deblur-GS/
@Devsp — Подписаться
⚡️ Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images
Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.
Deblur-GS неизменно обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, о чем свидетельствуют оценки, проведенные как на синтетических, так и на реальных наборах данных.
▪️Code: https://github.com/Chaphlagical/Deblur-GS
▪️Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
▪️Project: https://chaphlagical.icu/Deblur-GS/
@Devsp — Подписаться
Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.
Deblur-GS неизменно обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, о чем свидетельствуют оценки, проведенные как на синтетических, так и на реальных наборах данных.
▪️Code: https://github.com/Chaphlagical/Deblur-GS
▪️Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
▪️Project: https://chaphlagical.icu/Deblur-GS/
@Devsp — Подписаться