NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection
NeRF-Det - это новый метод обнаружения трехмерных объектов на основе RGB-изображений. В методе NeRF используется для явной оценки 3D-геометрии объекта, что повышает эффективность распознавания.
🖥 Github: https://github.com/facebookresearch/nerf-det
📕 Paper: https://arxiv.org/abs/2307.14620v1
⚡ Project: https://chenfengxu714.github.io/nerfdet/
🔗 Dataset: https://paperswithcode.com/dataset/arkitscenes
ai_machinelearning_big_data
NeRF-Det - это новый метод обнаружения трехмерных объектов на основе RGB-изображений. В методе NeRF используется для явной оценки 3D-геометрии объекта, что повышает эффективность распознавания.
🔗 Dataset: https://paperswithcode.com/dataset/arkitscenes
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥4❤1
Hierarchical AI system called Fashion Matrix dedicated to editing photos by just talking.
Fashion Matrix объединяет различные визуальные и языковые модели и в комплексного ИИ-помощника в области моды.
Система состоит из трех модулей: Fashion Assistant, Fashion Designer и AutoMasker, которые используют LLM в качестве поддержки интеллектуальной обработки текста.
🔗 Dataset: https://paperswithcode.com/dataset/densepose
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥8❤5🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
TaskExpert, a novel multi-task mixture-of-experts model that enables learning multiple representative task-generic feature spaces and decoding task-specific features in a dynamic manner.
Мощные многозадачные модели трансформеров для анализа и понимания сцен.
🔗 State of art: https://paperswithcode.com/sota/monocular-depth-estimation-on-cityscapes-3d?p=joint-2d-3d-multi-task-learning-on-cityscapes
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥4❤1
Как создавать качественные ML-системы
Команда VK Cloud перевела две статьи о ML-проектах. В первой части подробнее о жизненном цикле, ценности для бизнеса, важности проектной документации и концепциях PoC или MVP.
Во второй части: Data-centric ИИ, данны для обучения, разметка и очистка, синтетические данные, Data Engineering и ETL.
💼 Habr: https://habr.com/ru/companies/vk/articles/749850/
⏩ Habr2: https://habr.com/ru/companies/vk/articles/749852/
ai_machinelearning_big_data
Команда VK Cloud перевела две статьи о ML-проектах. В первой части подробнее о жизненном цикле, ценности для бизнеса, важности проектной документации и концепциях PoC или MVP.
Во второй части: Data-centric ИИ, данны для обучения, разметка и очистка, синтетические данные, Data Engineering и ETL.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤1🔥1😱1
🦙 ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
🔨ToolLLM aims to construct open-source, large-scale, high-quality instruction tuning SFT data to facilitate the construction of powerful LLMs with general tool-use capability.
Открытая платформа для обучения, настройки и оценки больших языковых моделей.
🖥 Github: https://github.com/openbmb/toolbench
📕 Paper: https://arxiv.org/abs/2307.16789v1
⭐️ Project: openbmb.github.io/ToolBench/
☑️ Demo: https://github.com/openbmb/toolbench#web-ui
ai_machinelearning_big_data
🔨ToolLLM aims to construct open-source, large-scale, high-quality instruction tuning SFT data to facilitate the construction of powerful LLMs with general tool-use capability.
Открытая платформа для обучения, настройки и оценки больших языковых моделей.
git clone git@github.com:OpenBMB/ToolBench.gitai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤3🔥1
A benchmark for evaluating Multimodal LLMs using multiple-choice questions.
Система генерации вопросов с несколькими вариантами ответов, ориентированных на конкретные параметры оценки, включающая процессы автоматической фильтрации и ручной проверки.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4🔥2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 MetaGPT: Meta Programming for Multi-Agent Collaborative Framework
MetaGPT, an innovative framework that infuses effective human workflows as a meta programming approach into LLM-driven multi-agent collaboration.
MetaGPT - инновационный фреймворк, позволяющий назначать различные роли GPT для создания ит-продуктов и решения сложных задач. MetaGPT принимает на вход однострочное описание задачи и выдает пользовательские истории / конкурентный анализ / требования / структуры данных / API / документы и т.д.
🖥 Github: https://github.com/geekan/metagpt
📕 Paper: https://arxiv.org/abs/2308.00352v1
☑️ Roadmap: https://github.com/geekan/MetaGPT/blob/main/docs/ROADMAP.md
ai_machinelearning_big_data
MetaGPT, an innovative framework that infuses effective human workflows as a meta programming approach into LLM-driven multi-agent collaboration.
MetaGPT - инновационный фреймворк, позволяющий назначать различные роли GPT для создания ит-продуктов и решения сложных задач. MetaGPT принимает на вход однострочное описание задачи и выдает пользовательские истории / конкурентный анализ / требования / структуры данных / API / документы и т.д.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Unified Model for Image, Video, Audio and Language Tasks
UnIVAL is a 0.25B-parameter unified model that is multitask pretrained on image and video-text data and target image, video and audio-text downstream tasks.
Унифицированная модель с для задач обработки изображений, видео, аудио и языка.
🖥 Github: https://github.com/mshukor/unival
📕 Paper: https://arxiv.org/abs/2307.16184
⭐️ Project: https://unival-model.github.io/
☑️ Demo: https://huggingface.co/spaces/mshukor/UnIVAL
ai_machinelearning_big_data
UnIVAL is a 0.25B-parameter unified model that is multitask pretrained on image and video-text data and target image, video and audio-text downstream tasks.
Унифицированная модель с для задач обработки изображений, видео, аудио и языка.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍8🔥4
A new method that explicitly utilizes low-level features from shallow layers to aid pixel reconstruction.
MMPreTrain - это набор инструментов для предварительного обучения с открытым исходным кодом, основанный на PyTorch. Он является частью проекта OpenMMLab.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2🔥1🤔1
Как маленькая нейроязыковая модель победила большую облачную
Разработчики Яндекс Клавиатуры рассказали, как отказались от n-граммной модели и выбрали нейроязыковую, поделились итоговой архитектурой модели и показали, насколько получился прирост по метрике saved keys в разных группах приложениях.
🔗 Хабр: https://habr.com/ru/companies/yandex/articles/751598/
ai_machinelearning_big_data
Разработчики Яндекс Клавиатуры рассказали, как отказались от n-граммной модели и выбрали нейроязыковую, поделились итоговой архитектурой модели и показали, насколько получился прирост по метрике saved keys в разных группах приложениях.
🔗 Хабр: https://habr.com/ru/companies/yandex/articles/751598/
ai_machinelearning_big_data
👍22❤3
Qwen-7B outperforms the baseline models of a similar model size, and even outperforms larger models of around 13B parameters, on a series of benchmark datasets.
Большая языковая модель на основе трансформеров, которая предварительно обучена на большом объеме данных, включая веб-тексты, книги, кодексы и т.д.
По сравнению с моделями аналогичного размера, значительно превосходит конкурентов на ряде эталонных датасетов.
Токенизатор модели, включает более 150 к. токенов.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4🥰2❤1
🦩 OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models
An open-source framework for training large multimodal models.
OpenFlamingo - семейство авторегрессионных моделей для обучения LMM в стиле Flamingo с параметрами от 3B до 9B.
OpenFlamingo можно использовать для создания подписи к изображению или для создания тейзисов на основе изображения. Преимуществом такого подхода является возможность быстрой адаптации к новым задачам с помощью внутриконтекстного обучения.
🖥 Github: https://github.com/mlfoundations/open_flamingo
📕 Paper: https://arxiv.org/abs/2308.01390
⭐️ Demo: https://huggingface.co/spaces/openflamingo/OpenFlamingo
☑️ Dataset: https://paperswithcode.com/dataset/flickr30k
ai_machinelearning_big_data
An open-source framework for training large multimodal models.
OpenFlamingo - семейство авторегрессионных моделей для обучения LMM в стиле Flamingo с параметрами от 3B до 9B.
OpenFlamingo можно использовать для создания подписи к изображению или для создания тейзисов на основе изображения. Преимуществом такого подхода является возможность быстрой адаптации к новым задачам с помощью внутриконтекстного обучения.
pip install open-flamingoai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥4🥰1
New segmentation task -- reasoning segmentation. The task is designed to output a segmentation mask given a complex and implicit query text.
LISA раскрывает новые возможности сегментации мультимодальных LLM и позволяет решать сложные задачи рассуждения на знание реального мира.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍7❤2❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧍♂ Reconstructing Three-Dimensional Models of Interacting Humans
Tools to process and visualize the IMAR Vision Datasets: CHI3D, FlickrCI3D, HumanSC3D, FlickrSC3D and Fit3D.
Наборы инструментов и датасетов для задач 3d реконструкций, сегментации и обнаружения людей.
🖥 Github: https://github.com/sminchisescu-research/imar_vision_datasets_tools
📕 Paper: https://arxiv.org/abs/2308.01854v1
⭐️ Project: https://ci3d.imar.ro/
☑️ Dataset: https://paperswithcode.com/dataset/chi3d
ai_machinelearning_big_data
Tools to process and visualize the IMAR Vision Datasets: CHI3D, FlickrCI3D, HumanSC3D, FlickrSC3D and Fit3D.
Наборы инструментов и датасетов для задач 3d реконструкций, сегментации и обнаружения людей.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤2🔥2🥰1