🎧 Msanii: High Fidelity Music Synthesis on a Shoestring Budget
Model combines the expressiveness of mel spectrograms, the generative capabilities of diffusion models, and the vocoding capabilities of neural vocoders.
Новая модель на основе диффузии для эффективного синтеза длинной музыки высокого качества.
🖥 Github: https://github.com/kinyugo/msanii
⭐️ Demo: https://kinyugo.github.io/msanii-demo/
⭐️ Colab: https://colab.research.google.com/github/Kinyugo/msanii/blob/main/notebooks/msanii_demo.ipynb
✅️ Paper: https://arxiv.org/abs/2301.06468
🤗Hugging face: https://huggingface.co/spaces/kinyugo/msanii
@ai_machinelearning_big_data
Model combines the expressiveness of mel spectrograms, the generative capabilities of diffusion models, and the vocoding capabilities of neural vocoders.
Новая модель на основе диффузии для эффективного синтеза длинной музыки высокого качества.
pip install -q git+https://github.com/Kinyugo/msanii.git🤗Hugging face: https://huggingface.co/spaces/kinyugo/msanii
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥5❤1
Media is too big
VIEW IN TELEGRAM
Multiview Compressive Coding (MCC), learns to compress the input appearance and geometry to predict the 3D structure by querying a 3D-aware decoder
MCC — это новый подход к 3D-реконструкции по одному изображению RGB-D .
pip install h5py omegaconf submitit@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5❤1
🔥 Deep Learning Tuning Playbook
This document is for engineers and researchers (both individuals and teams) interested in maximizing the performance of deep learning models.
Этот репозиторий-книга от специалистов Google Research с практическими советами по максимальному повышению производительности моделей глубокого обучения.
🖥 Github
📌Reddit
@ai_machinelearning_big_data
This document is for engineers and researchers (both individuals and teams) interested in maximizing the performance of deep learning models.
Этот репозиторий-книга от специалистов Google Research с практическими советами по максимальному повышению производительности моделей глубокого обучения.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17❤8👍5⚡1
New method for producing color images from sketches
Новый метод генерации реалистичных, цветных изображений из эскизов. эффективность модели была проверена на 4 различных, крупных датасетов изображений.
git clone https://github.com/giddyyupp/AdvSegLoss.git
cd AdvSegLoss@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤1🔥1
Media is too big
VIEW IN TELEGRAM
Keypoint-free one-shot object pose estimation method that handles low-textured objects without knowing CAD models.
Новый метод захвата объектов без ключевых точек, который значительно превосходит существующие методы и может работать с низкотекстурированными объектами.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥4❤1
Forwarded from Порвали два трояна
Media is too big
VIEW IN TELEGRAM
Наши аналитики сформулировали предсказания будущих угроз для корпораций на основе сложившихся трендов и действий злоумышленников, которые мы наблюдали в уходящем году.
У нас есть ответы на эти и другие вопросы в 1,5-минутном видео
Для тех, кто любит поподробнее — презентация с массой полезных данных.
Смотреть презентацию⟶
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3😁1
🔬 Stanford.Game Theory Free Course
The course will provide the basics: representing games and strategies, the extensive form, Bayesian games, repeated and stochastic games, and more.
🎲 Еще несколько отличных курсов от Стенфорда.
Вы изучите: математический метод нахождения оптимальных стратегий в играх, байесовские игры, повторяющиеся и стохастические игры, теория социального выбора, аукционы и многое другое
▪Game Theory
▪Game Theory II: Advanced
▪Deep Multi-Task and Meta Learning
▪Game Theory for Machine Learning
▪ Algorithmic Game Theory
@ai_machinelearning_big_data
The course will provide the basics: representing games and strategies, the extensive form, Bayesian games, repeated and stochastic games, and more.
🎲 Еще несколько отличных курсов от Стенфорда.
Вы изучите: математический метод нахождения оптимальных стратегий в играх, байесовские игры, повторяющиеся и стохастические игры, теория социального выбора, аукционы и многое другое
▪Game Theory
▪Game Theory II: Advanced
▪Deep Multi-Task and Meta Learning
▪Game Theory for Machine Learning
▪ Algorithmic Game Theory
@ai_machinelearning_big_data
🔥11👍8❤5
This media is not supported in your browser
VIEW IN TELEGRAM
StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable fidelity vs. text alignment tradeoff.
StyleGAN-T новый ган для синтеза текста и изображений.
StyleGAN-T значительно превосходит предыдущие GANы и модели дистиллированной диффузии в скорости и качестве генерации текста в изображение.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥2❤1⚡1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Model uses d choose 2 planes to represent a d-dimensional scene.
Новая модель на PyTorch, которая обеспечивает плавный переход от статических (d=3) к динамическим (d=4) сценам, c высокой оптимизацией.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥2👏1
LoRA: Low-Rank Adaptation of Large Language Models is a novel technique introduced by Microsoft researchers to deal with the problem of fine-tuning large-language models.
Новый метод, представленный исследователями Microsoft для тонкой настройки больших языковых моделей.
LoRA значительно сокращает количество параметров для обучения модели и сокращает использование памяти GPU, поскольку для большинства весов моделей не требуется вычислять градиенты.
По сравнению с GPT-3 175B, настроенным с помощью Adam, c LoRA можно уменьшить количество обучаемых параметров в 10 000 раз и затраты GPU в 3 раза.
🤗 Hugging face blog: https://huggingface.co/blog/lora
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤3🔥3
PRIMEQA supports core QA functionalities like retrieval and reading comprehension as well as auxiliary capabilities such as question generation.
PrimeQA — это репозиторий с открытым исходным кодом, который позволяет исследователям и разработчикам легко обучать мультиязычные модели ответов на вопросы (QA).
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Cut and Learn for Unsupervised Object Detection and Instance Segmentation
Simple anf effective method to train an object detection and instance segmentation model without using any supervision.
Cut-and-LEaRn (CutLER) — это новый подход к обучению моделей, для обнаружения и сегментации без участия человека. Cut-and-LEaRn превосходит предыдущую SOTA в 2,7 раза для AP50 и в 2,6 раза для AR в 11 тестах.
🖥 Github: https://github.com/facebookresearch/cutler
⭐️ Project: http://people.eecs.berkeley.edu/~xdwang/projects/CutLER/
🖥 Colab: https://colab.research.google.com/drive/1NgEyFHvOfuA2MZZnfNPWg1w5gSr3HOBb?usp=sharing
✅️ Paper: https://arxiv.org/abs/2301.11320
✔️ Installation instructions: https://github.com/facebookresearch/CutLER/blob/main/INSTALL.md
@ai_machinelearning_big_data
Simple anf effective method to train an object detection and instance segmentation model without using any supervision.
Cut-and-LEaRn (CutLER) — это новый подход к обучению моделей, для обнаружения и сегментации без участия человека. Cut-and-LEaRn превосходит предыдущую SOTA в 2,7 раза для AP50 и в 2,6 раза для AR в 11 тестах.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4❤1
Audio generation using diffusion models, in PyTorch.
Полнофункциональная библиотека генерации звука на PyTorch.
pip install audio-diffusion-pytorch
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍5❤2
Over 3000 models, and over 100 datasets on the Hugging Face Hub.
Более 3000 моделей компьютерного зрения и более 100 датасетов на Hugging Face Hub.
Supported vision tasks and Pipelines
Training your own vision models
Integration with timm
Diffusers
Support for third-party libraries
Datasets
HugsVision
Model documentation
Hugging Face notebooks
Hugging Face example noscripts
Task pages
Timm
Generate 3D voxels from a predicted depth map of an input image
Open vocabulary semantic segmentation
Narrate videos by generating captions
Classify videos from YouTube
Zero-shot video classification
Visual question-answering
Use zero-shot image classification to find best captions for an image to generate similar images
🤗 AutoTrain
AutoTrain
Image classification
Automatic model evaluation
🦾 Zero-shot models
CLIP
OWL-ViT
CLIPSeg
GroupViT
X-CLIP
🚀 Deployment
Deploying TensorFlow Vision Models in Hugging Face with TF Serving
Deploying ViT on Kubernetes with TF Serving
Deploying ViT on Vertex AI
Deploying ViT with TFX and Vertex AI
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥6❤2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
AVS to estimate pixel-wise segmentation masks for all the sounding objects, no matter the number of visible sounding objects
Большой датасет и модель сегментации объектов, издающих звук на видео.
🔹 Benchmark: http://www.avlbench.opennlplab.cn/
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5❤4
Here we will keep track of the latest AI models for audio generation, starting in 2023!
Список последних моделей ИИ для генерации звука 2023 года.
▪SingSong: Generating musical accompaniments from singing.
- Paper
▪AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
- Paper
▪Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion
- Paper
- Code
▪Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models
- Paper
▪Noise2Music
▪RAVE2
- Paper
- Code
▪MusicLM: Generating Music From Text
- Paper
▪Msanii: High Fidelity Music Synthesis on a Shoestring Budget
- Paper
- Code
- HH
▪ArchiSound: Audio Generation with Diffusion
- Paper
- Code
▪VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
- Paper
Full list
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7❤3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Dreamix: Video Diffusion Models are General Video Editors
New Google's text-based motion model.
Given a small collection of images showing the same subject, Dreamix can generate new videos with the subject in motion.
Всего из нескольких картинок или видео новая модель от Google - Dreamix генерирует видео по текстовому описанию!
На видео Dreamix превращает обезьяну в танцующего медведя по промпту «Медведь танцует и прыгает под веселую музыку, двигая всем телом».
⭐️ Project: https://dreamix-video-editing.github.io/
✅️ Paper: https://arxiv.org/pdf/2302.01329.pdf
⭐️ Video: https://www.youtube.com/watch?v=xcvnHhfDSGM
ai_machinelearning_big_data
New Google's text-based motion model.
Given a small collection of images showing the same subject, Dreamix can generate new videos with the subject in motion.
Всего из нескольких картинок или видео новая модель от Google - Dreamix генерирует видео по текстовому описанию!
На видео Dreamix превращает обезьяну в танцующего медведя по промпту «Медведь танцует и прыгает под веселую музыку, двигая всем телом».
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥7❤1
Conditional Flow Matching is a fast way to train Continuous Normalizing Flow models.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3❤2
🌃 STEPS: Joint Self-supervised Nighttime Image Enhancement and Depth Estimation
The first method that jointly learns a nighttime image enhancer and a depth estimator, without using ground truth for either task.
Новый метод распознавания объектов и ночных фотографиях и крупный, размеченный датасет.
🖥 Github: https://github.com/ucaszyp/steps
✅️ Paper: https://arxiv.org/abs/2302.01334v1
⭐️ Dataset: https://drive.google.com/drive/folders/1n2WsaGtB-tRiPyee-vAYF6Cd7EZr4RGe
ai_machinelearning_big_data
The first method that jointly learns a nighttime image enhancer and a depth estimator, without using ground truth for either task.
Новый метод распознавания объектов и ночных фотографиях и крупный, размеченный датасет.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3🤔2❤1