The model bridges the gap between vision and natural language modalities by adding a transformer between pre-trained models.
BLIP-2 — это новая модель визуального языка, которую можно использовать для нескольких задач преобразования изображения в текст. Это эффективный подход, который можно применять для получения качественных промптов.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥4❤2
🌐 Как организовать работу над ML-экспериментами с помощью MLflow
MLOps — набор практик и инструментов, которые помогают стандартизировать и повысить эффективность процессов работы с машинным обучением. Эксперты VK Cloud и Karpov.Courses выпустили на Хабре полезную статью, где показали последовательность действий по выстраиванию MLOps-подхода в облаке с помощью JupyterHub и MLflow. Подробнее тут.
ai_machinelearning_big_data
MLOps — набор практик и инструментов, которые помогают стандартизировать и повысить эффективность процессов работы с машинным обучением. Эксперты VK Cloud и Karpov.Courses выпустили на Хабре полезную статью, где показали последовательность действий по выстраиванию MLOps-подхода в облаке с помощью JupyterHub и MLflow. Подробнее тут.
ai_machinelearning_big_data
👍8
T2I-Adapter
Network that can provide extra guidance to pre-trained text-to-image models while freezing the original large text-to-image models.
T2I-Adapter набор aдаптеров для диффузионных моделей(~ 70 млн параметров ).Подходит для широкого спектра задач text-to-image, генерация скетчей, редактирование изображений по тексту, объединение нескольких адаптеров вместе и многое другое.
🖥 Github: https://github.com/TencentARC/T2I-Adapter
🤗 Hugging Face: https://huggingface.co/TencentARC/T2I-Adapter
⭐️ Paper: https://arxiv.org/abs/2302.08453v1
💻 Dataset: https://paperswithcode.com/dataset/coco
ai_machinelearning_big_data
Network that can provide extra guidance to pre-trained text-to-image models while freezing the original large text-to-image models.
T2I-Adapter набор aдаптеров для диффузионных моделей(~ 70 млн параметров ).Подходит для широкого спектра задач text-to-image, генерация скетчей, редактирование изображений по тексту, объединение нескольких адаптеров вместе и многое другое.
🤗 Hugging Face: https://huggingface.co/TencentARC/T2I-Adapter
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
3D-aware Conditional Image Synthesis (pix2pix3D)
Model synthesizes a 3d photo from different viewpoints.
3D генеративная модель для управляемого синтеза фотореалистичных изображений.
🖥 Github: https://github.com/dunbar12138/pix2pix3D
⭐️ Project: https://huggingface.co/TencentARC/T2I-Adapter
⭐️ Paper: https://arxiv.org/abs/2302.08509
💻 Dataset: https://paperswithcode.com/dataset/coco
ai_machinelearning_big_data
Model synthesizes a 3d photo from different viewpoints.
3D генеративная модель для управляемого синтеза фотореалистичных изображений.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🥰2❤1
EdgeYOLO reaches 34FPS with 50.6% AP in COCO2017 dataset and 25.9% AP in VisDrone2019 (image input size is 640x640, batch=16, post-process included).
Новый детектор обнаружения небольших объектов с высокой точностью, не требующий больших вычислительных мощностей.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍7❤2😁1🤣1
Slapo is a schedule language for progressive optimization of large deep learning model training.
Slapo позволяет использовать набор примитивов на PyTorch, запуская их по расписанию, для оптимизации обучения без изменения самой модели.
🚀 Мощная оптимизация.
pip3 install slapoai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5🥰2🤔1🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
MultiDiffusion - модель, позволяющая создавать любые изображения, используя предварительно обученную модель диффузии текста в изображение, без дополнительного обучения и настройки.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥5❤4
Media is too big
VIEW IN TELEGRAM
🔍 Planar Object Tracking via Weighted Optical Flow
Method for planar object 8 degrees-of-freedom pose.
WOFT - новый невероятно точный метод отслеживания объектов.
⭐️ Project: https://cmp.felk.cvut.cz/~serycjon/WOFT/
🖥 Github: https://github.com/serycjon/WOFT
⭐️ Paper: arxiv.org/pdf/2301.10057.pdf
💻 Dataset : https://www3.cs.stonybrook.edu/~hling/data/POT-210/planar_benchmark.html
ai_machinelearning_big_data
Method for planar object 8 degrees-of-freedom pose.
WOFT - новый невероятно точный метод отслеживания объектов.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥10❤3
Meta Album is a meta-dataset created for few-shot learning, meta-learning, continual learning and so on.
Meta-datase — это набор метаданных, созданный , состоящий из 40 датасетов разбитых на 10 уникальных категорий. Это постоянно пополняемый набор метаданных.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3❤1👏1
Multi-modality tracker that fuses information from visual appearance and geometry to estimate object poses.
Список алгоритмов по отслеживанию 3D-объектов.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3❤1
Video Localized Narratives
Video Localized Narratives, a new form of multimodal video annotations connecting vision and language.
Новая модель от Google позволяет генерировать аннотации к видео, фиксируя даже сложные события.
Авторы уже аннотировали 20 тыс. видео из датасетов OVIS, UVO и Oops, в общей сложности 1,7 млн. слов.
🖥 Github: https://github.com/google/video-localized-narratives
⭐️ Paper: https://arxiv.org/abs/2302.11217v1
⏩ Project: https://www.youtube.com/watch?v=0ORZvDDbDjA
💻 Dataset : https://paperswithcode.com/dataset/video-localized-narratives
ai_machinelearning_big_data
Video Localized Narratives, a new form of multimodal video annotations connecting vision and language.
Новая модель от Google позволяет генерировать аннотации к видео, фиксируя даже сложные события.
Авторы уже аннотировали 20 тыс. видео из датасетов OVIS, UVO и Oops, в общей сложности 1,7 млн. слов.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥6❤2
New approach deviates from image-text contrastive learning by relying on pre-trained language models to guide the learning rather than minimize a cross-modal similarity.
Новый альтернативный подход к визуальному обучению: с использованием языкового сходства для выборки семантически схожих пар изображений.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤2🔥2
🌐 Как наладить технологии автоматического перевода в своём проекте?
В статье на Хабре Андрей Соколов из команды прикладных исследований ВКонтакте подробно и доступным языком рассказал о том, как они сделали свой переводчик для постов и сообщений в мессенджере. Материал будет полезен для тех, кто тоже хочет попробовать использовать и развернуть переводы у себя в проекте.
Для чтения статьи не потребуется специальный уровень знаний: в ней нет излишних технических подробностей. При этом в ней вы найдёте ссылки на полезные ресурсы и выдержки из интересных источников.
ai_machinelearning_big_data
В статье на Хабре Андрей Соколов из команды прикладных исследований ВКонтакте подробно и доступным языком рассказал о том, как они сделали свой переводчик для постов и сообщений в мессенджере. Материал будет полезен для тех, кто тоже хочет попробовать использовать и развернуть переводы у себя в проекте.
Для чтения статьи не потребуется специальный уровень знаний: в ней нет излишних технических подробностей. При этом в ней вы найдёте ссылки на полезные ресурсы и выдержки из интересных источников.
ai_machinelearning_big_data
👍10🔥5❤2
Подробная шпаргалка по работе с ChatGpt.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥5❤1🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
Maybe the first academic open work on stereo 3D SSC method with vision-only input.
Первый метод SSC под названием OccDepth, который использует неявную информацию из стереоизображений для восстановления трехмерных геометрических структур.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥9❤3
A group-based offset diversity where the cross-group interaction is proposed for better context mining.
Официальная реализация Pytorch для нейронного сжатия видео и изображений.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3❤2⚡1👎1
😊 HugNLP
HugNLP is a unified and comprehensive NLP library based on HuggingFace Transformer.
HugNLP — это новая универсальная NLP библиотека основанная на Hugging Face, для повышения удобства и эффективности работы c текстами.
🖥 Github: https://github.com/wjn1996/hugnlp
⏩ Paper: https://arxiv.org/abs/2302.14286v1
⭐️ Dataset: https://paperswithcode.com/dataset/clue
⏩ HF for complex text classification: https://huggingface.co/blog/classification-use-cases
@ai_machinelearning_big_data
HugNLP is a unified and comprehensive NLP library based on HuggingFace Transformer.
HugNLP — это новая универсальная NLP библиотека основанная на Hugging Face, для повышения удобства и эффективности работы c текстами.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🤗4🔥2👏2🥰1