Machinelearning – Telegram
383K subscribers
4.45K photos
857 videos
17 files
4.89K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
↪️ Zero-shot image-to-text generation with BLIP-2

The model bridges the gap between vision and natural language modalities by adding a transformer between pre-trained models.

BLIP-2 — это новая модель визуального языка, которую можно использовать для нескольких задач преобразования изображения в текст. Это эффективный подход, который можно применять для получения качественных промптов.

💨 Hugging Face: https://huggingface.co/blog/blip-2

💻 Demo: https://huggingface.co/spaces/Salesforce/BLIP2

🖥 Github: https://github.com/salesforce/LAVIS

⭐️Paper: https://arxiv.org/abs/2301.12597

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥42
🌐 Как организовать работу над ML-экспериментами с помощью MLflow

MLOps — набор практик и инструментов, которые помогают стандартизировать и повысить эффективность процессов работы с машинным обучением. Эксперты VK Cloud и Karpov.Courses выпустили на Хабре полезную статью, где показали последовательность действий по выстраиванию MLOps-подхода в облаке с помощью JupyterHub и MLflow. Подробнее тут.

ai_machinelearning_big_data
👍8
T2I-Adapter

Network that can provide extra guidance to pre-trained text-to-image models while freezing the original large text-to-image models.

T2I-Adapter набор aдаптеров для диффузионных моделей(~ 70 млн параметров ).Подходит для широкого спектра задач text-to-image, генерация скетчей, редактирование изображений по тексту, объединение нескольких адаптеров вместе и многое другое.


🖥 Github: https://github.com/TencentARC/T2I-Adapter

🤗 Hugging Face: https://huggingface.co/TencentARC/T2I-Adapter

⭐️Paper: https://arxiv.org/abs/2302.08453v1

💻 Dataset: https://paperswithcode.com/dataset/coco

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
3D-aware Conditional Image Synthesis (pix2pix3D)

Model synthesizes a 3d photo from different viewpoints.

3D генеративная модель для управляемого синтеза фотореалистичных изображений.

🖥 Github: https://github.com/dunbar12138/pix2pix3D

⭐️ Project: https://huggingface.co/TencentARC/T2I-Adapter

⭐️Paper: https://arxiv.org/abs/2302.08509

💻 Dataset: https://paperswithcode.com/dataset/coco

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🥰21
👁 EdgeYOLO: An Edge-Real-Time Object Detector

EdgeYOLO reaches 34FPS with 50.6% AP in COCO2017 dataset and 25.9% AP in VisDrone2019 (image input size is 640x640, batch=16, post-process included).

Новый детектор обнаружения небольших объектов с высокой точностью, не требующий больших вычислительных мощностей.

🖥 Github: https://github.com/lsh9832/edgeyolo

⭐️Paper: https://arxiv.org/abs/2302.07483v1

⭐️ Weights: https://github.com/LSH9832/edgeyolo/releases/tag/v0.0.0

💻 Dataset: https://paperswithcode.com/dataset/visdrone

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍72😁1🤣1
🚀 Slapo: A Schedule Language for Large Model Training

Slapo is a schedule language for progressive optimization of large deep learning model training.

Slapo позволяет использовать набор примитивов на PyTorch, запуская их по расписанию, для оптимизации обучения без изменения самой модели.

🚀 Мощная оптимизация.

pip3 install slapo

🖥 Github: https://github.com/awslabs/slapo

⭐️Paper: https://arxiv.org/abs/2302.08005v1

💻 Docs: https://awslabs.github.io/slapo/

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5🥰2🤔1🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
💠 MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

MultiDiffusion - модель, позволяющая создавать любые изображения, используя предварительно обученную модель диффузии текста в изображение, без дополнительного обучения и настройки.

⭐️ Project: https://multidiffusion.github.io/

🖥 Github: https://github.com/omerbt/MultiDiffusion

⭐️Paper: https://arxiv.org/abs/2302.08113v1

💻 Dataset: https://paperswithcode.com/dataset/coco

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥54
Media is too big
VIEW IN TELEGRAM
🔍 Planar Object Tracking via Weighted Optical Flow

Method for planar object 8 degrees-of-freedom pose.

WOFT - новый невероятно точный метод отслеживания объектов.


⭐️ Project: https://cmp.felk.cvut.cz/~serycjon/WOFT/

🖥 Github: https://github.com/serycjon/WOFT

⭐️Paper: arxiv.org/pdf/2301.10057.pdf

💻 Dataset : https://www3.cs.stonybrook.edu/~hling/data/POT-210/planar_benchmark.html

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥103
🔍 A meta-dataset for few-shot image classification

Meta Album is a meta-dataset created for few-shot learning, meta-learning, continual learning and so on.

Meta-datase — это набор метаданных, созданный , состоящий из 40 датасетов разбитых на 10 уникальных категорий. Это постоянно пополняемый набор метаданных.

⭐️ Meta-dataset: https://meta-album.github.io/

🖥 Github: https://github.com/ihsaan-ullah/meta-album

⭐️Paper: https://arxiv.org/abs/2302.08909v1

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥31👏1
💨 3D Object Tracking

Multi-modality tracker that fuses information from visual appearance and geometry to estimate object poses.

Список алгоритмов по отслеживанию 3D-объектов.


🖥 Github: https://github.com/dlr-rm/3dobjecttracking

⭐️Paper: https://arxiv.org/abs/2302.11458v1

Video: https://www.youtube.com/watch?v=0ORZvDDbDjA

💻 Dataset : https://paperswithcode.com/dataset/ycb-video

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥31
Video Localized Narratives

Video Localized Narratives, a new form of multimodal video annotations connecting vision and language.

Новая модель от Google позволяет генерировать аннотации к видео, фиксируя даже сложные события.

Авторы уже аннотировали 20 тыс. видео из датасетов OVIS, UVO и Oops, в общей сложности 1,7 млн. слов.

🖥 Github: https://github.com/google/video-localized-narratives

⭐️Paper: https://arxiv.org/abs/2302.11217v1

Project: https://www.youtube.com/watch?v=0ORZvDDbDjA

💻 Dataset : https://paperswithcode.com/dataset/video-localized-narratives

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥62
📡 Learning Visual Representations via Language-Guided Sampling

New approach deviates from image-text contrastive learning by relying on pre-trained language models to guide the learning rather than minimize a cross-modal similarity.

Новый альтернативный подход к визуальному обучению: с использованием языкового сходства для выборки семантически схожих пар изображений.

🖥 Github: https://github.com/mbanani/lgssl

⭐️Paper: https://arxiv.org/abs/2302.12248v1

Pre-trained Checkpoints: https://www.dropbox.com/sh/me6nyiewlux1yh8/AAAPrD2G0_q_ZwExsVOS_jHQa?dl=0

💻 Dataset : https://paperswithcode.com/dataset/redcaps

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍172🔥2
🌐 Как наладить технологии автоматического перевода в своём проекте?

В статье на Хабре Андрей Соколов из команды прикладных исследований ВКонтакте подробно и доступным языком рассказал о том, как они сделали свой переводчик для постов и сообщений в мессенджере. Материал будет полезен для тех, кто тоже хочет попробовать использовать и развернуть переводы у себя в проекте.

Для чтения статьи не потребуется специальный уровень знаний: в ней нет излишних технических подробностей. При этом в ней вы найдёте ссылки на полезные ресурсы и выдержки из интересных источников.

ai_machinelearning_big_data
👍10🔥52
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥51🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
📃OccDepth: A Depth-aware Method for 3D Semantic Occupancy Network

Maybe the first academic open work on stereo 3D SSC method with vision-only input.

Первый метод
SSC под названием OccDepth, который использует неявную информацию из стереоизображений для восстановления трехмерных геометрических структур.

🖥 Github: https://github.com/megvii-research/occdepth

⭐️Paper: https://arxiv.org/abs/2302.13540v1

💻 Dataset : https://paperswithcode.com/dataset/nyuv2

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥93
👁 Deep Contextual Video Compression

A group-based offset diversity where the cross-group interaction is proposed for better context mining.

Официальная реализация Pytorch для нейронного сжатия видео и изображений.


🖥 Github: https://github.com/microsoft/dcvc

⭐️Paper: https://arxiv.org/abs/2302.14402v1

💻 Dataset : https://paperswithcode.com/dataset/vimeo90k-1

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥321👎1
😊 HugNLP

HugNLP is a unified and comprehensive NLP library based on HuggingFace Transformer.

HugNLP — это новая универсальная NLP библиотека основанная на Hugging Face, для повышения удобства и эффективности работы c текстами.

🖥 Github: https://github.com/wjn1996/hugnlp

Paper: https://arxiv.org/abs/2302.14286v1

⭐️ Dataset: https://paperswithcode.com/dataset/clue

HF for complex text classification: https://huggingface.co/blog/classification-use-cases

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🤗4🔥2👏2🥰1