🔥 Learning From Mistakes Makes LLM Better Reasoner
Модели больших языков (LLM) недавно продемонстрировали замечательные способности к рассуждению на решение математических задач.
Имитируя этот процесс обучения, основанный на ошибках, LEMA точно настраивает LLM на парах данных для исправления ошибок, сгенерированных GPT-4.
LLM и две задачи по математическому рассуждению, LEMA последовательно улучшает производительность по сравнению с точной настройкой только на основе данных CoT.
🖥 Github: https://github.com/microsoft/codet
📕Paper: https://arxiv.org/pdf/2310.20689v1.pdf
⏩Dataset: https://paperswithcode.com/dataset/math
@Devsp — Подписаться
Модели больших языков (LLM) недавно продемонстрировали замечательные способности к рассуждению на решение математических задач.
Имитируя этот процесс обучения, основанный на ошибках, LEMA точно настраивает LLM на парах данных для исправления ошибок, сгенерированных GPT-4.
LLM и две задачи по математическому рассуждению, LEMA последовательно улучшает производительность по сравнению с точной настройкой только на основе данных CoT.
🖥 Github: https://github.com/microsoft/codet
📕Paper: https://arxiv.org/pdf/2310.20689v1.pdf
⏩Dataset: https://paperswithcode.com/dataset/math
@Devsp — Подписаться
🪄IC|TC: Image Clustering Conditioned on Text Criteria
Новая методология кластеризации изображений на основе заданных пользователем критериев в форме текста с использованием современных моделей визуального языка и больших языковых моделей.
В данной работе представлена новая методика кластеризации изображений на основе заданных пользователем текстовых описаний с использованием современных моделей "зрение-язык" и больших языковых моделей.
Метод Image Clustering Conditioned on Text Criteria (IC TC), представляет собой новую парадигму кластеризации изображений и требует минимального вмешательства человека и предоставляет пользователю полный контроль над результатами кластеризации.
🖥 Github: https://github.com/sehyunkwon/ictc
📕Paper: https://arxiv.org/pdf/2310.18297v2.pdf
⏩Tasks: https://paperswithcode.com/task/clustering
@Devsp — Подписаться
Новая методология кластеризации изображений на основе заданных пользователем критериев в форме текста с использованием современных моделей визуального языка и больших языковых моделей.
В данной работе представлена новая методика кластеризации изображений на основе заданных пользователем текстовых описаний с использованием современных моделей "зрение-язык" и больших языковых моделей.
Метод Image Clustering Conditioned on Text Criteria (IC TC), представляет собой новую парадигму кластеризации изображений и требует минимального вмешательства человека и предоставляет пользователю полный контроль над результатами кластеризации.
🖥 Github: https://github.com/sehyunkwon/ictc
📕Paper: https://arxiv.org/pdf/2310.18297v2.pdf
⏩Tasks: https://paperswithcode.com/task/clustering
@Devsp — Подписаться
☑ PERF: Panoramic Neural Radiance Field from a Single Panorama
PERF - новая систему синтеза изображений на 360 градусов, которая обучает панорамное поле нейронного излучения из одной панорамы.
PERF позволяет перемещать 3D-изображения в сложной сцене без дорогостоящего и утомительного сбора изображений.
Модель подходит для задач преобразование панорамы в 3D, текста в 3D и стилизации 3D-сцен.
🖥 Github: https://github.com/perf-project/PeRF
⚡️Project: https://perf-project.github.io/
📕Paper: https://arxiv.org/abs/2310.16831v1
⏩Dataset: https://paperswithcode.com/dataset/replica
@Devsp — Подписаться
PERF - новая систему синтеза изображений на 360 градусов, которая обучает панорамное поле нейронного излучения из одной панорамы.
PERF позволяет перемещать 3D-изображения в сложной сцене без дорогостоящего и утомительного сбора изображений.
Модель подходит для задач преобразование панорамы в 3D, текста в 3D и стилизации 3D-сцен.
🖥 Github: https://github.com/perf-project/PeRF
⚡️Project: https://perf-project.github.io/
📕Paper: https://arxiv.org/abs/2310.16831v1
⏩Dataset: https://paperswithcode.com/dataset/replica
@Devsp — Подписаться
🔅 FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling
LongerCrafter (FreeNoise) — это не требующая настройки и экономящая время парадигма для создания более длинных видео на основе предварительно обученных моделей распространения видео.
Обширные эксперименты показывают превосходство данного метода по сравнению с предыдущими для расширения генеративных возможностей диффузионных моделей видео.
🖥 Github: https://github.com/arthur-qiu/LongerCrafter
📕 Paper: https://arxiv.org/abs/2310.15169
⏩ Project: http://haonanqiu.com/projects/FreeNoise.html
@Devsp — Подписаться
LongerCrafter (FreeNoise) — это не требующая настройки и экономящая время парадигма для создания более длинных видео на основе предварительно обученных моделей распространения видео.
Обширные эксперименты показывают превосходство данного метода по сравнению с предыдущими для расширения генеративных возможностей диффузионных моделей видео.
🖥 Github: https://github.com/arthur-qiu/LongerCrafter
📕 Paper: https://arxiv.org/abs/2310.15169
⏩ Project: http://haonanqiu.com/projects/FreeNoise.html
@Devsp — Подписаться
Masked Space-Time Hash Encoding for Efficient Dynamic Scene Reconstruction
MSTH - новый метод эффективного восстановления динамических 3D-сцен из многопроекционных или монокулярных видео.
🖥Github: https://github.com/masked-spacetime-hashing/msth
🤗 HH: https://huggingface.co/datasets/masked-spacetime-hashing/Campus
📕Paper: https://arxiv.org/abs/2310.17527v1
⏩Dataset: https://paperswithcode.com/dataset/mip-nerf-360
@Devsp — Подписаться
MSTH - новый метод эффективного восстановления динамических 3D-сцен из многопроекционных или монокулярных видео.
🖥Github: https://github.com/masked-spacetime-hashing/msth
🤗 HH: https://huggingface.co/datasets/masked-spacetime-hashing/Campus
📕Paper: https://arxiv.org/abs/2310.17527v1
⏩Dataset: https://paperswithcode.com/dataset/mip-nerf-360
@Devsp — Подписаться
🖼 HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in Low-Resolution Trained Diffusion Models
Новый метод, не требующий обучения, который повышает о и скорость предварительно обученных моделей diffusion.
• page: https://hidiffusion.github.io
• paper: https://arxiv.org/abs/2311.17528
• code: https://github.com/megvii-research/HiDiffusion
•colab: https://colab.research.google.com/drive/1EiBn9lSnPZTU4cikRRaBBexs429M-qty?usp=sharing
@Devsp — Подписаться
Новый метод, не требующий обучения, который повышает о и скорость предварительно обученных моделей diffusion.
• page: https://hidiffusion.github.io
• paper: https://arxiv.org/abs/2311.17528
• code: https://github.com/megvii-research/HiDiffusion
•colab: https://colab.research.google.com/drive/1EiBn9lSnPZTU4cikRRaBBexs429M-qty?usp=sharing
@Devsp — Подписаться
🖼 HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in Low-Resolution Trained Diffusion Models
Новый метод, не требующий обучения, который повышает о и скорость предварительно обученных моделей diffusion.
• page: https://hidiffusion.github.io
• paper: https://arxiv.org/abs/2311.17528
• code: https://github.com/megvii-research/HiDiffusion
•colab: https://colab.research.google.com/drive/1EiBn9lSnPZTU4cikRRaBBexs429M-qty?usp=sharing
@Devsp — Подписаться
Новый метод, не требующий обучения, который повышает о и скорость предварительно обученных моделей diffusion.
• page: https://hidiffusion.github.io
• paper: https://arxiv.org/abs/2311.17528
• code: https://github.com/megvii-research/HiDiffusion
•colab: https://colab.research.google.com/drive/1EiBn9lSnPZTU4cikRRaBBexs429M-qty?usp=sharing
@Devsp — Подписаться
🕵️ Detecting Pretraining Data from Large Language Models
Min-K% Prob, простой и эффективный метод, который позволяет определить, была ли LLM предварительно обучена на заданном тексте, а также для обнаружения защищенного авторским правом текста.
Метод основан на простой гипотезе: невидимый пример имеет тенденцию содержать несколько слов-выбросов с низкой вероятностью, тогда как видимый пример с меньшей вероятностью будет содержать слова с такой низкой вероятностью.
Датасет WikiMIA служит бенчмарком, предназначенным для обнаружения данных предварительного обучения.
🖥Github: https://github.com/swj0419/detect-pretrain-code
📕Paper: https://arxiv.org/pdf/2310.16789.pdf
📘 WikiMIA Benchmark:
⏩Project: https://swj0419.github.io/detect-pretrain.github.io/
@Devsp — Подписаться
Min-K% Prob, простой и эффективный метод, который позволяет определить, была ли LLM предварительно обучена на заданном тексте, а также для обнаружения защищенного авторским правом текста.
Метод основан на простой гипотезе: невидимый пример имеет тенденцию содержать несколько слов-выбросов с низкой вероятностью, тогда как видимый пример с меньшей вероятностью будет содержать слова с такой низкой вероятностью.
Датасет WikiMIA служит бенчмарком, предназначенным для обнаружения данных предварительного обучения.
🖥Github: https://github.com/swj0419/detect-pretrain-code
📕Paper: https://arxiv.org/pdf/2310.16789.pdf
📘 WikiMIA Benchmark:
⏩Project: https://swj0419.github.io/detect-pretrain.github.io/
@Devsp — Подписаться
🔇Efficient Large-Scale Audio Tagging
Трансформеры доминируют в области по работе с адуио и заменили CNN в качестве современной нейросетевой архитектуры.
Трансформеры отлично справляются с огромными аудио датасетами и подходят для создания мощных предварительно обученных моделей.
В данной модели используются динамические CNN, которые достигают лучшей производительности на задачах разметки аудио данных и хорошо масштабируются, достигая производительности трансформеров и даже превосходя их.
🖥Github: https://github.com/fschmid56/efficientat
📕Paper: https://arxiv.org/abs/2310.15648v1
⏩Demo: https://21527a47f03813481c.gradio.live/
@Devsp — Подписаться
Трансформеры доминируют в области по работе с адуио и заменили CNN в качестве современной нейросетевой архитектуры.
Трансформеры отлично справляются с огромными аудио датасетами и подходят для создания мощных предварительно обученных моделей.
В данной модели используются динамические CNN, которые достигают лучшей производительности на задачах разметки аудио данных и хорошо масштабируются, достигая производительности трансформеров и даже превосходя их.
🖥Github: https://github.com/fschmid56/efficientat
📕Paper: https://arxiv.org/abs/2310.15648v1
⏩Demo: https://21527a47f03813481c.gradio.live/
@Devsp — Подписаться
🗣 OpenVoice V2 - a Text-to-Speech model that can clone any voice and speak in any language
OpenVoice V2 - новая версия открытой модели преобразования текста в речь, которая позволяет клонировать любой голос и генерировать речь на различных языках.
• Github: https://github.com/myshell-ai/OpenVoice/tree/main
• Usage: https://github.com/myshell-ai/OpenVoice/blob/main/docs/USAGE.md
@Devsp — Подписаться
OpenVoice V2 - новая версия открытой модели преобразования текста в речь, которая позволяет клонировать любой голос и генерировать речь на различных языках.
• Github: https://github.com/myshell-ai/OpenVoice/tree/main
• Usage: https://github.com/myshell-ai/OpenVoice/blob/main/docs/USAGE.md
@Devsp — Подписаться
🔥 FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent
Сквозной дифференцируемый метод, который определяет точные позы камеры, внутренние характеристики камеры и покадровую плотную глубину видеопоследовательности.
Этот метод не только намного превосходит предшествующие методы корректировки пакетов на основе градиентного спуска, но и удивительно работает наравне с COLMAP, современным методом SfM, в последующей задаче синтеза новых представлений на 360 градусов.
• Github: https://github.com/dcharatan/flowmap
• Paper: https://arxiv.org/abs/2404.15259
• Dataset: https://drive.google.com/drive/folders/1PqByQSfzyLjfdZZDwn6RXIECso7WB9IY
@Devsp — Подписаться
Сквозной дифференцируемый метод, который определяет точные позы камеры, внутренние характеристики камеры и покадровую плотную глубину видеопоследовательности.
Этот метод не только намного превосходит предшествующие методы корректировки пакетов на основе градиентного спуска, но и удивительно работает наравне с COLMAP, современным методом SfM, в последующей задаче синтеза новых представлений на 360 градусов.
• Github: https://github.com/dcharatan/flowmap
• Paper: https://arxiv.org/abs/2404.15259
• Dataset: https://drive.google.com/drive/folders/1PqByQSfzyLjfdZZDwn6RXIECso7WB9IY
@Devsp — Подписаться
⚡️ UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition
UniMERNet значительно превосходит основные модели в распознавании реальных математических выражений, демонстрируя превосходную производительность для простых печатных выражений (SPE), сложных печатных выражений (CPE), выражений, снятых с экрана (SCE) и рукописных выражений (HWE), о чем свидетельствуют сравнительная оценка BLEU Score.
• Github: https://github.com/opendatalab/unimernet
• Paper: https://arxiv.org/abs/2404.15254
• HF: https://huggingface.co/wanderkid/unimernet
@Devsp — Подписаться
UniMERNet значительно превосходит основные модели в распознавании реальных математических выражений, демонстрируя превосходную производительность для простых печатных выражений (SPE), сложных печатных выражений (CPE), выражений, снятых с экрана (SCE) и рукописных выражений (HWE), о чем свидетельствуют сравнительная оценка BLEU Score.
• Github: https://github.com/opendatalab/unimernet
• Paper: https://arxiv.org/abs/2404.15254
• HF: https://huggingface.co/wanderkid/unimernet
@Devsp — Подписаться
🔎 Moving Object Segmentation:All You Need Is SAM (and Flow)
FlowSAM - новый инструмент для обнаружения и сегментации движущихся объектов на видео, который значительно превосходит все предыдущие модели, как для одного объекта, так и для множества объектов.
▪️ Project page: https://www.robots.ox.ac.uk/~vgg/research/flowsam/
▪️ Code: https://github.com/Jyxarthur/flowsam
▪️Paper: https://arxiv.org/abs/2404.12389
▪️ Data: https://drive.google.com/drive/folders/1tmDq_vG_BvY5po40Ux5OBds1avUM_CbR
@Devsp — Подписаться
FlowSAM - новый инструмент для обнаружения и сегментации движущихся объектов на видео, который значительно превосходит все предыдущие модели, как для одного объекта, так и для множества объектов.
▪️ Project page: https://www.robots.ox.ac.uk/~vgg/research/flowsam/
▪️ Code: https://github.com/Jyxarthur/flowsam
▪️Paper: https://arxiv.org/abs/2404.12389
▪️ Data: https://drive.google.com/drive/folders/1tmDq_vG_BvY5po40Ux5OBds1avUM_CbR
@Devsp — Подписаться
🔎 Moving Object Segmentation:All You Need Is SAM (and Flow)
FlowSAM - новый инструмент для обнаружения и сегментации движущихся объектов на видео, который значительно превосходит все предыдущие модели, как для одного объекта, так и для множества объектов.
▪️ Project page: https://www.robots.ox.ac.uk/~vgg/research/flowsam/
▪️ Code: https://github.com/Jyxarthur/flowsam
▪️Paper: https://arxiv.org/abs/2404.12389
▪️ Data: https://drive.google.com/drive/folders/1tmDq_vG_BvY5po40Ux5OBds1avUM_CbR
@Devsp — Подписаться
FlowSAM - новый инструмент для обнаружения и сегментации движущихся объектов на видео, который значительно превосходит все предыдущие модели, как для одного объекта, так и для множества объектов.
▪️ Project page: https://www.robots.ox.ac.uk/~vgg/research/flowsam/
▪️ Code: https://github.com/Jyxarthur/flowsam
▪️Paper: https://arxiv.org/abs/2404.12389
▪️ Data: https://drive.google.com/drive/folders/1tmDq_vG_BvY5po40Ux5OBds1avUM_CbR
@Devsp — Подписаться
➕OpenBioLLM-Llama3-70B и 8B: Open-source Large Language Models in Medical Domain
OpenBioLLM-Llama3-70B и 8B: самые эффективные и доступные на сегодняшний день Lms.
Они превосходят таких гигантов индустрии, как GPT-4, Gemini, Meditron-70B, Med-PaLM-1 и Med-PaLM-2, в области биомедицины.
- 70B : https://huggingface.co/aaditya/OpenBioLLM-Llama3-70B
- 8B : https://huggingface.co/aaditya/OpenBioLLM-Llama3-8B
- Таблица лидеров в области медицины: https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard
@Devsp — Подписаться
OpenBioLLM-Llama3-70B и 8B: самые эффективные и доступные на сегодняшний день Lms.
Они превосходят таких гигантов индустрии, как GPT-4, Gemini, Meditron-70B, Med-PaLM-1 и Med-PaLM-2, в области биомедицины.
- 70B : https://huggingface.co/aaditya/OpenBioLLM-Llama3-70B
- 8B : https://huggingface.co/aaditya/OpenBioLLM-Llama3-8B
- Таблица лидеров в области медицины: https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard
@Devsp — Подписаться
🦩 Woodpecker: Hallucination Correction for Multimodal Large Language Models
Большие языковые модели могут вызывать галлюцинации и генерировать ложную информацию, что приводит к потенциальной дезинформации и путанице.
Для борьбы с галлюцинациями в современных исследованиях в основном используется метод настройки по инструкции, требующий переобучения моделей на конкретных данных.
В данной работе предлагается иной подход, представляя метод не требующий переобучения модели, который называется Woodpecker.
🖥Github: https://github.com/bradyfu/woodpecker
📕Paper: https://arxiv.org/abs/2310.15110v1
⏩Demo: https://21527a47f03813481c.gradio.live/
@Devsp — Подписаться
Большие языковые модели могут вызывать галлюцинации и генерировать ложную информацию, что приводит к потенциальной дезинформации и путанице.
Для борьбы с галлюцинациями в современных исследованиях в основном используется метод настройки по инструкции, требующий переобучения моделей на конкретных данных.
В данной работе предлагается иной подход, представляя метод не требующий переобучения модели, который называется Woodpecker.
🖥Github: https://github.com/bradyfu/woodpecker
📕Paper: https://arxiv.org/abs/2310.15110v1
⏩Demo: https://21527a47f03813481c.gradio.live/
@Devsp — Подписаться
🖥AutoGen
AutoGen — это платформа, позволяющая разрабатывать приложения LLM с использованием нескольких агентов, которые могут взаимодействовать друг с другом для решения задач.
Агенты AutoGen настраиваемы, доступны для общения и легко допускают участие человека.
Они могут работать в различных режимах, в которых используются комбинации LLM, человеческого участия и инструментов.
🖥Github: https://github.com/microsoft/autogen
📕Project: https://microsoft.github.io/autogen/
🤗 FLAML.: https://github.com/microsoft/FLAML
@Devsp — Подписаться
AutoGen — это платформа, позволяющая разрабатывать приложения LLM с использованием нескольких агентов, которые могут взаимодействовать друг с другом для решения задач.
Агенты AutoGen настраиваемы, доступны для общения и легко допускают участие человека.
Они могут работать в различных режимах, в которых используются комбинации LLM, человеческого участия и инструментов.
🖥Github: https://github.com/microsoft/autogen
📕Project: https://microsoft.github.io/autogen/
🤗 FLAML.: https://github.com/microsoft/FLAML
@Devsp — Подписаться
🐾 Putting the Object Back into Video Object Segmentation (Cutie)
Cutie - это фреймворк для сегментации видеообъектов, обладающий большей высокой производительностью, устойчивостью и скоростью.
Cutie четко отделяет семантику объекта переднего плана от фона. На сложном наборе данных MOSE Cutie превосходит все предыдущие методы сегментации.
Cutie выполняет чтение памяти на уровне объектов сверху вниз, адаптируя небольшой набор объектных запросов для реструктуризации и итеративного взаимодействия с восходящими пиксельными функциями с помощью преобразователя объектов на основе запросов.
🖥Github: https://github.com/hkchengrex/Cutie
🖥Colab: https://colab.research.google.com/drive/1yo43XTbjxuWA7XgCUO9qxAi7wBI6HzvP?usp=sharing
📕Paper: https://arxiv.org/abs/2310.12982v1
🚀Project: https://hkchengrex.github.io/Cutie/
@Devsp — Подписаться
Cutie - это фреймворк для сегментации видеообъектов, обладающий большей высокой производительностью, устойчивостью и скоростью.
Cutie четко отделяет семантику объекта переднего плана от фона. На сложном наборе данных MOSE Cutie превосходит все предыдущие методы сегментации.
Cutie выполняет чтение памяти на уровне объектов сверху вниз, адаптируя небольшой набор объектных запросов для реструктуризации и итеративного взаимодействия с восходящими пиксельными функциями с помощью преобразователя объектов на основе запросов.
🖥Github: https://github.com/hkchengrex/Cutie
🖥Colab: https://colab.research.google.com/drive/1yo43XTbjxuWA7XgCUO9qxAi7wBI6HzvP?usp=sharing
📕Paper: https://arxiv.org/abs/2310.12982v1
🚀Project: https://hkchengrex.github.io/Cutie/
@Devsp — Подписаться
📑 DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond
DocXChain - мощный инструментарий с открытым исходным кодом для синтаксического анализа документов, предназначенный для автоматического преобразования разнородной информации, содержащейся в неструктурированных документах, таких как текст, таблицы и диаграммы, схемы в структурированные представления, доступные для машинного чтения и манипулирования.
Предоставляются базовые возможности, включая обнаружение текста, распознавание текста, распознавание структуры таблиц и анализ макета.
🖥Github: https://github.com/alibabaresearch/advancedliteratemachinery
📕Paper: https://arxiv.org/abs/2310.12430v1
🚀Damo: https://damo.alibaba.com/labs/language-technology
@Devsp — Подписаться
DocXChain - мощный инструментарий с открытым исходным кодом для синтаксического анализа документов, предназначенный для автоматического преобразования разнородной информации, содержащейся в неструктурированных документах, таких как текст, таблицы и диаграммы, схемы в структурированные представления, доступные для машинного чтения и манипулирования.
Предоставляются базовые возможности, включая обнаружение текста, распознавание текста, распознавание структуры таблиц и анализ макета.
🖥Github: https://github.com/alibabaresearch/advancedliteratemachinery
📕Paper: https://arxiv.org/abs/2310.12430v1
🚀Damo: https://damo.alibaba.com/labs/language-technology
@Devsp — Подписаться
🛠 Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling
SpokenNLP: официальный репозиторий кодовых баз широкого спектра исследовательских проектов, разработанных командой SpokenNLP Speech Lab, Alibaba Group.
🖥Github: https://github.com/alibaba-damo-academy/spokennlp
📕Paper: https://arxiv.org/pdf/2310.11772v1.pdf
🚀Dataset: https://paperswithcode.com/dataset/wikisection
@Devsp — Подписаться
SpokenNLP: официальный репозиторий кодовых баз широкого спектра исследовательских проектов, разработанных командой SpokenNLP Speech Lab, Alibaba Group.
🖥Github: https://github.com/alibaba-damo-academy/spokennlp
📕Paper: https://arxiv.org/pdf/2310.11772v1.pdf
🚀Dataset: https://paperswithcode.com/dataset/wikisection
@Devsp — Подписаться