📸 Omni Aggregation Networks for Lightweight Image Super-Resolution
Omni Self-attention paradigm for simultaneous spatial and channel interactions,mining all the potential correlations across omni-axis.
Omni-SR, легковесный фреймворк для получения высокого разрешения изображений.
🖥 Github: https://github.com/francis0625/omni-sr
⏩ Paper: https://arxiv.org/abs/2304.10244v1
⭐️ Dataset: https://paperswithcode.com/dataset/manga109
ai_machinelearning_big_data
Omni Self-attention paradigm for simultaneous spatial and channel interactions,mining all the potential correlations across omni-axis.
Omni-SR, легковесный фреймворк для получения высокого разрешения изображений.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥5👍3🏆1
Count anything
An empirical study on few-shot counting using segment anything
Исследование использования метода SAM для сложной задачи подсчета объектов по нескольким снимкам.
🖥 Github: https://github.com/vision-intelligence-and-robots-group/count-anything
⏩ Paper: https://arxiv.org/abs/2304.10817v1
🤗 Hugging face: https://huggingface.co/spaces/nebula/counting-anything
📌 Dataset: https://drive.google.com/file/d/1ymDYrGs9DSRicfZbSCDiOu0ikGDh5k6S/view?usp=sharing
ai_machinelearning_big_data
An empirical study on few-shot counting using segment anything
Исследование использования метода SAM для сложной задачи подсчета объектов по нескольким снимкам.
🤗 Hugging face: https://huggingface.co/spaces/nebula/counting-anything
📌 Dataset: https://drive.google.com/file/d/1ymDYrGs9DSRicfZbSCDiOu0ikGDh5k6S/view?usp=sharing
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤3👍3
Collaborative Diffusion for Multi-Modal Face Generation and Editing
Multi-modal controls, framework synthesizes high-quality images consistent with the input conditions.
Проект, который позволяет использовать несколько модальностей для управления созданием и редактированием лица.
🖥 Github: https://github.com/ziqihuangg/collaborative-diffusion
⏩ Project: https://ziqihuangg.github.io/projects/collaborative-diffusion.html
⏩ Paper: https://arxiv.org/abs/2304.10530v1
⭐️ Dataset: https://paperswithcode.com/dataset/celeba-dialog
ai_machinelearning_big_data
Multi-modal controls, framework synthesizes high-quality images consistent with the input conditions.
Проект, который позволяет использовать несколько модальностей для управления созданием и редактированием лица.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Track anything
Project developed upon Segment Anything, can specify anything to track and segment via user clicks only.
Track-Anything - это гибкий и интерактивный инструмент для отслеживания и сегментации видео.
🖥 Github: https://github.com/gaomingqi/track-anything
⏩ Paper: https://arxiv.org/abs/2304.11968v1
🤗 Hugging face: https://huggingface.co/spaces/watchtowerss/Track-Anything
📌 Dataset: https://paperswithcode.com/dataset/davis-2017
ai_machinelearning_big_data
Project developed upon Segment Anything, can specify anything to track and segment via user clicks only.
Track-Anything - это гибкий и интерактивный инструмент для отслеживания и сегментации видео.
🤗 Hugging face: https://huggingface.co/spaces/watchtowerss/Track-Anything
📌 Dataset: https://paperswithcode.com/dataset/davis-2017
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥6❤4🥰1
🔊 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head
Multi-modal AI system named AudioGPT, which complements LLMs (i.e., ChatGPT) with 1) foundation models to process complex audio information and solve numerous understanding and generation tasks
AudioGPT: Генерирование речи, музыки, звука и говорящих аватаров.
🖥 Github: https://github.com/aigc-audio/audiogpt
⏩ Paper: https://arxiv.org/abs/2304.12995v1
🤗 Hugging face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT
📌 Dataset: https://paperswithcode.com/dataset/c4
ai_machinelearning_big_data
Multi-modal AI system named AudioGPT, which complements LLMs (i.e., ChatGPT) with 1) foundation models to process complex audio information and solve numerous understanding and generation tasks
AudioGPT: Генерирование речи, музыки, звука и говорящих аватаров.
🤗 Hugging face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT
📌 Dataset: https://paperswithcode.com/dataset/c4
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥6❤2
🔍 Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System
Self-Controlled Memory (SCM) system to unleash infinite-length input capacity for large-scale language models.
SCM может быть интегрирована с любыми LLM для обработки сверхдлинных текстов без каких-либо изменений или тонкой настройки.
🖥 Github: https://github.com/toufunao/SCM4LLMs
⏩ Paper: https://arxiv.org/abs/2304.13343v1
📌 Tasks: https://paperswithcode.com/task/language-modelling
ai_machinelearning_big_data
Self-Controlled Memory (SCM) system to unleash infinite-length input capacity for large-scale language models.
SCM может быть интегрирована с любыми LLM для обработки сверхдлинных текстов без каких-либо изменений или тонкой настройки.
📌 Tasks: https://paperswithcode.com/task/language-modelling
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3🔥2
🖌 Edit Everything: A Text-Guided Generative System for Images Editing
A text-guided generative system without any finetuning (zero-shot).
Edit Everything позволяет пользователям редактировать изображения с помощью простых текстовых инструкций.
🖥 Github: https://github.com/defengxie/edit_everything
⏩ Paper: https://arxiv.org/abs/2304.14006v1
🚀 Dataset: https://paperswithcode.com/dataset/wukong
ai_machinelearning_big_data
A text-guided generative system without any finetuning (zero-shot).
Edit Everything позволяет пользователям редактировать изображения с помощью простых текстовых инструкций.
🚀 Dataset: https://paperswithcode.com/dataset/wukong
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3❤1
Running IF with 🧨 diffusers on a Free Tier Google Colab
IF is better at generating images with high-frequency details (e.g., human faces and hands) and is the first open-source image generation model that can reliably generate images with text.
Инструкция, как запустить одну из самых мощных моделей преобразования текста в изображение с открытым исходным кодом IF на бесплатном Google Colab.
🤗 Hugging face: https://huggingface.co/blog/if
🖥 Github: https://github.com/deep-floyd/IF
⏩ Paper: https://arxiv.org/pdf/2205.11487.pdf
📌 Demo:https://huggingface.co/spaces/DeepFloyd/IF
ai_machinelearning_big_data
IF is better at generating images with high-frequency details (e.g., human faces and hands) and is the first open-source image generation model that can reliably generate images with text.
Инструкция, как запустить одну из самых мощных моделей преобразования текста в изображение с открытым исходным кодом IF на бесплатном Google Colab.
🤗 Hugging face: https://huggingface.co/blog/if
📌 Demo:https://huggingface.co/spaces/DeepFloyd/IF
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥6❤5🦄2
TaskPrompter: Spatial-Channel Multi-Task Prompting for Dense Scene Understanding
Novel spatial-channel multi-task prompting transformer framework to achieve this target.
Две мощные модели многозадачных трансформеров для пониманияк контекста на видео.
🖥 Github: https://github.com/prismformore/multi-task-transformer
⏩ Paper: https://openreview.net/forum?id=-CwPopPJda
📌 Dataset: https://paperswithcode.com/dataset/cityscapes-3d
ai_machinelearning_big_data
Novel spatial-channel multi-task prompting transformer framework to achieve this target.
Две мощные модели многозадачных трансформеров для пониманияк контекста на видео.
📌 Dataset: https://paperswithcode.com/dataset/cityscapes-3d
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤1🔥1
Полное погружение в машинное обучение с онлайн-материалами Школы анализа данных
Чтобы разложить знания по полочкам или ликвидировать мелкие пробелы, ML-специалистам важно иметь источник, в котором можно найти ответы на любые вопросы. Именно такой учебник и решили сделать в ШАДе.
Эксперты Яндекса собрали теоретические материалы, решения задач, примеры из индустрии и мнения практиков в одном хендбуке. Онлайн-материалы помогут начинающим специалистам сформировать целостное и системное представление о машинном обучении, а профессионалам — оставаться в тонусе, постоянно развивая свои скилы.
С этим учебником вы сможете получить представление о самых свежих тенденциях в машинном обучении и разобраться в темах, которые поднимаются в последних научных статьях. Важный бонус: все материалы бесплатны.
Сохраняйте ссылку на учебник и прокачивайтесь в машинном обучении: https://clck.ru/33t5Fa
Чтобы разложить знания по полочкам или ликвидировать мелкие пробелы, ML-специалистам важно иметь источник, в котором можно найти ответы на любые вопросы. Именно такой учебник и решили сделать в ШАДе.
Эксперты Яндекса собрали теоретические материалы, решения задач, примеры из индустрии и мнения практиков в одном хендбуке. Онлайн-материалы помогут начинающим специалистам сформировать целостное и системное представление о машинном обучении, а профессионалам — оставаться в тонусе, постоянно развивая свои скилы.
С этим учебником вы сможете получить представление о самых свежих тенденциях в машинном обучении и разобраться в темах, которые поднимаются в последних научных статьях. Важный бонус: все материалы бесплатны.
Сохраняйте ссылку на учебник и прокачивайтесь в машинном обучении: https://clck.ru/33t5Fa
👍19❤4🔥4
Caption-Anything is a versatile tool combining image segmentation, visual captioning, and ChatGPT, generating tailored captions with diverse controls for user preferences.
Универсальный инструмент для работы с изображениями, сочетающий в себе возможности, Visual Captioning, SAM, ChatGPT. Модель генерирует описательные подписи для любого объекта на изображении.
📌 Dataset: https://paperswithcode.com/dataset/cityscapes-3d
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥4❤2
ZipIt! Merging Models from Different Tasks without Training
ZipIt allows to combine completely distinct models with different initializations, each solving a separate task, into one multi-task model without any additional training.
"ZipIt!", новый метод объединения двух произвольных моделей одной архитектуры.
🖥 Github: https://github.com/gstoica27/zipit
⏩ Paper: https://arxiv.org/abs/2305.03053v1
📌 Dataset: https://paperswithcode.com/dataset/nabirds
ai_machinelearning_big_data
ZipIt allows to combine completely distinct models with different initializations, each solving a separate task, into one multi-task model without any additional training.
"ZipIt!", новый метод объединения двух произвольных моделей одной архитектуры.
📌 Dataset: https://paperswithcode.com/dataset/nabirds
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍4🦄4✍1❤1
In this post, we covered the constraints, unique challenges and the current state of text-to-video generation models
Текст в видео: Задачи, проблемы и текущее состояние. В этом посте мы обсудим прошлое, настоящее и будущее моделей "текст в видео".
🤗 Hugging face: https://huggingface.co/blog/text-to-video
📌 Dataset: https://m-bain.github.io/webvid-dataset/
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4❤3💘1
VK Cloud Conf: как перенести лучшие практики разработки ИТ-компаний в классический бизнес
Каждая крупная российская компания, которая стремится к росту, вынуждена развивать собственную разработку. Для многих это новое направление. В то же время большинство вопросов современной разработки — инструментарий, ресурсы, процессы — общие для разных отраслей.
⏰ Когда: 8 июня, 12:00
📍Где: Москва и онлайн
⚡️ Регистрация
На VK Cloud Conf эксперты VK и крупнейших российских компаний поделятся опытом организации процессов разработки, работы с данными и информационной безопасности в облаке.
Вы узнаете, какими инструментами и подходами можно сократить время вывода новых разработок на рынок. Спикеры обсудят архитектуру современных аналитических систем — от сбора и структурирования данных до визуализации и разработки моделей машинного обучения.
В программе:
🔹 Как повысить эффективность разработки ИТ-решений с помощью облачных сервисов
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты проектов
🔹 Тренды и примеры миграции на российские базы данных
🔹 Лучшие практики облачной безопасности в условиях требований к конфиденциальности данных
Конференция будет полезна руководителям компаний и ИТ-специалистам разных направлений.
Каждая крупная российская компания, которая стремится к росту, вынуждена развивать собственную разработку. Для многих это новое направление. В то же время большинство вопросов современной разработки — инструментарий, ресурсы, процессы — общие для разных отраслей.
⏰ Когда: 8 июня, 12:00
📍Где: Москва и онлайн
⚡️ Регистрация
На VK Cloud Conf эксперты VK и крупнейших российских компаний поделятся опытом организации процессов разработки, работы с данными и информационной безопасности в облаке.
Вы узнаете, какими инструментами и подходами можно сократить время вывода новых разработок на рынок. Спикеры обсудят архитектуру современных аналитических систем — от сбора и структурирования данных до визуализации и разработки моделей машинного обучения.
В программе:
🔹 Как повысить эффективность разработки ИТ-решений с помощью облачных сервисов
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты проектов
🔹 Тренды и примеры миграции на российские базы данных
🔹 Лучшие практики облачной безопасности в условиях требований к конфиденциальности данных
Конференция будет полезна руководителям компаний и ИТ-специалистам разных направлений.
👍11❤4🫡2💊2😨1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ImageBind: One Embedding Space To Bind Them All
ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data.
ImageBind, новый подход к обучению совместному встраиванию шести различных модальностей - текста,изображений, аудио, глубины, тепловых данных и данных IMU.
🖥 Github: https://github.com/facebookresearch/imagebind
Ⓜ️ Meta blog: https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
⏩ Paper: https://arxiv.org/pdf/2305.05665v1.pdf
⭐️ Demo: https://imagebind.metademolab.com/
📌 Dataset: https://paperswithcode.com/dataset/msr-vtt
ai_machinelearning_big_data
ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data.
ImageBind, новый подход к обучению совместному встраиванию шести различных модальностей - текста,изображений, аудио, глубины, тепловых данных и данных IMU.
Ⓜ️ Meta blog: https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
📌 Dataset: https://paperswithcode.com/dataset/msr-vtt
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤6🔥2
VideoChat: Chat-Centric Video Understanding
Currently, Ask-Anything is a simple yet interesting tool for chatting with video.
Набор данных, ориентированный на видео, состоящий из тысяч видеороликов, сопровождаемых подробными описаниями и субтитрами.
🖥 Github: https://github.com/OpenGVLab/Ask-Anything
⭐️ Demo: https://huggingface.co/spaces/ynhe/AskAnything
⏩ Paper: https://arxiv.org/pdf/2305.06355v1.pdf
📌 Dataset: https://paperswithcode.com/dataset/webvid
ai_machinelearning_big_data
Currently, Ask-Anything is a simple yet interesting tool for chatting with video.
Набор данных, ориентированный на видео, состоящий из тысяч видеороликов, сопровождаемых подробными описаниями и субтитрами.
📌 Dataset: https://paperswithcode.com/dataset/webvid
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤2🌭2🔥1
📖 DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head Video Generation
A novel self-supervised method for learning dense 3D facial geometry (ie, depth) from face videos, without requiring camera parameters and 3D geometry annotations in training.
Новый метод на основе генеративных состязательных сетей для генерации видео с говорящими головами.
🖥 Github: https://github.com/harlanhong/cvpr2022-dagan
⏩ Paper: https://arxiv.org/pdf/2305.06225v1.pdf
⭐️ Demo: https://huggingface.co/spaces/HarlanHong/DaGAN
📌 Dataset: https://paperswithcode.com/dataset/voxceleb1
ai_machinelearning_big_data
A novel self-supervised method for learning dense 3D facial geometry (ie, depth) from face videos, without requiring camera parameters and 3D geometry annotations in training.
Новый метод на основе генеративных состязательных сетей для генерации видео с говорящими головами.
📌 Dataset: https://paperswithcode.com/dataset/voxceleb1
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤5🔥1