This media is not supported in your browser
VIEW IN TELEGRAM
AVS to estimate pixel-wise segmentation masks for all the sounding objects, no matter the number of visible sounding objects
Большой датасет и модель сегментации объектов, издающих звук на видео.
🔹 Benchmark: http://www.avlbench.opennlplab.cn/
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5❤4
Here we will keep track of the latest AI models for audio generation, starting in 2023!
Список последних моделей ИИ для генерации звука 2023 года.
▪SingSong: Generating musical accompaniments from singing.
- Paper
▪AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
- Paper
▪Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion
- Paper
- Code
▪Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models
- Paper
▪Noise2Music
▪RAVE2
- Paper
- Code
▪MusicLM: Generating Music From Text
- Paper
▪Msanii: High Fidelity Music Synthesis on a Shoestring Budget
- Paper
- Code
- HH
▪ArchiSound: Audio Generation with Diffusion
- Paper
- Code
▪VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
- Paper
Full list
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7❤3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Dreamix: Video Diffusion Models are General Video Editors
New Google's text-based motion model.
Given a small collection of images showing the same subject, Dreamix can generate new videos with the subject in motion.
Всего из нескольких картинок или видео новая модель от Google - Dreamix генерирует видео по текстовому описанию!
На видео Dreamix превращает обезьяну в танцующего медведя по промпту «Медведь танцует и прыгает под веселую музыку, двигая всем телом».
⭐️ Project: https://dreamix-video-editing.github.io/
✅️ Paper: https://arxiv.org/pdf/2302.01329.pdf
⭐️ Video: https://www.youtube.com/watch?v=xcvnHhfDSGM
ai_machinelearning_big_data
New Google's text-based motion model.
Given a small collection of images showing the same subject, Dreamix can generate new videos with the subject in motion.
Всего из нескольких картинок или видео новая модель от Google - Dreamix генерирует видео по текстовому описанию!
На видео Dreamix превращает обезьяну в танцующего медведя по промпту «Медведь танцует и прыгает под веселую музыку, двигая всем телом».
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥7❤1
Conditional Flow Matching is a fast way to train Continuous Normalizing Flow models.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3❤2
🌃 STEPS: Joint Self-supervised Nighttime Image Enhancement and Depth Estimation
The first method that jointly learns a nighttime image enhancer and a depth estimator, without using ground truth for either task.
Новый метод распознавания объектов и ночных фотографиях и крупный, размеченный датасет.
🖥 Github: https://github.com/ucaszyp/steps
✅️ Paper: https://arxiv.org/abs/2302.01334v1
⭐️ Dataset: https://drive.google.com/drive/folders/1n2WsaGtB-tRiPyee-vAYF6Cd7EZr4RGe
ai_machinelearning_big_data
The first method that jointly learns a nighttime image enhancer and a depth estimator, without using ground truth for either task.
Новый метод распознавания объектов и ночных фотографиях и крупный, размеченный датасет.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3🤔2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Novel method for text-guided generation, editing, and transfer of textures for 3D shapes. Leveraging a pretrained depth-to-image diffusion mode
TEXTure принимает исходный рендер и текстовое описание и рисует модель с высококачественными текстурами, используя итеративный процесс на основе диффузии.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤3🔥3
Manipulating Python Programs with symbolic object-oriented programming .
PyGlove от Google - методология символьного объектно-ориентированного программирования на Python, позволяет напрямую манипулировать объектами (создание ML моделей на метаязыке), что значительно упрощает написание метапрограмм. Подробный пример efficiently_exchange_ml_ideas_as_code
pip install pyglove📃 Docs: https://pyglove.readthedocs.io/
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥6❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Open-sources PhyCV: The First Physics-inspired Computer Vision Library
Unlike traditional algorithms that are a sequence of hand-crafted empirical rules, physics-inspired algorithms leverage physical laws of nature as blueprints.
PhyCV - новый класс алгоритмов компьютерного зрения, высокой точности, которые имитируют распространение света через физические объекты. Алгоритмы основаны на уравнениях дифракции света в оптических системах.
🖥 Github: https://github.com/JalaliLabUCLA/phycv
📝 Paper: https://arxiv.org/abs/2301.12531v1
🎥 Video: https://www.youtube.com/watch?v=PJXXwXVyjdk&embeds_euri=https%3A%2F%2Fwww.imveurope.com%2F&feature=emb_logo
⭐️ Project: https://photonics.ucla.edu/2022/05/12/jalali-lab-open-sources-phycv-a-physics-inspired-computer-vision-library/
@ai_machinelearning_big_data
Unlike traditional algorithms that are a sequence of hand-crafted empirical rules, physics-inspired algorithms leverage physical laws of nature as blueprints.
PhyCV - новый класс алгоритмов компьютерного зрения, высокой точности, которые имитируют распространение света через физические объекты. Алгоритмы основаны на уравнениях дифракции света в оптических системах.
pip install phycv📝 Paper: https://arxiv.org/abs/2301.12531v1
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥7❤2
The new Bing offers you reliable, up-to-date results – and complete answers to your questions. Of course, it also cites the sources.
Новый Bing будет создан на основе существующего интерфейса Bing, чтобы предоставить вам новый тип поиска.
▪После создания списка релевантных ссылок Bing консолидирует надежные источники в Интернете, чтобы получить один обобщенный ответ.
▪Выполните поиск по разговору, тексту и мнению. Bing принимает сложные поисковые запросы и предоставляет подробный ответ.
▪В чате вы можете естественно общаться в чате и задавать дополнительные вопросы при первоначальном поиске, чтобы получать персонализированные ответы.
▪Bing можно использовать как творческий инструмент. Это поможет вам писать статьи, истории или даже делиться идеями для проекта.
🔥 Waiting list: https://www.bing.com/new
📹Video: https://www.youtube.com/watch?v=zhdwVdSFn54&t=7s
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍5❤2
Сбер празднует День российской науки и запускает сайт для всех российских гиков, гениев и просто энтузиастов науки. На сайте можно много и хорошо почитать об исследованиях и разработках (R&D), а также о самых прорывных трендах в направлениях:
▪️блокчейн
▪️нейронауки
▪️AR/VR
▪️геймификация
▪️интернет вещей
▪️кибербезопасность
▪️искусственный интеллект
▪️робототехника.
Среди представленных для изучения R&D-проектов — блокчейн-платформа и Volumetric студия, которая позволяет создать эффект присутствия, платформы для построения и повышения эффективности моделей машинного обучения и многое другое.
Кроме того на сайте можно узнать и присоединиться к мероприятиям, которые проводят исследователи Сбера, получить информацию о партнёрских проектах лабораторий Сбера с центрами искусственного интеллекта на базе ВШЭ, Сколтеха и МФТИ.
ai_machinelearning_big_data
▪️блокчейн
▪️нейронауки
▪️AR/VR
▪️геймификация
▪️интернет вещей
▪️кибербезопасность
▪️искусственный интеллект
▪️робототехника.
Среди представленных для изучения R&D-проектов — блокчейн-платформа и Volumetric студия, которая позволяет создать эффект присутствия, платформы для построения и повышения эффективности моделей машинного обучения и многое другое.
Кроме того на сайте можно узнать и присоединиться к мероприятиям, которые проводят исследователи Сбера, получить информацию о партнёрских проектах лабораторий Сбера с центрами искусственного интеллекта на базе ВШЭ, Сколтеха и МФТИ.
ai_machinelearning_big_data
👍13👎7🔥2❤1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Gen-1: The Next Step Forward for Generative AI
Use words and images to generate new videos out of existing
Новейший ИИ-алгоритм Gen-1, который может изменить стиль видео по текстовому запросу или картинке.
ones.
https://research.runwayml.com/gen1
⭐️ Project: https://research.runwayml.com/gen1
✅️ Paper: https://arxiv.org/abs/2302.03011
📌Request form: https://docs.google.com/forms/d/e/1FAIpQLSfU0O_i1dym30hEI33teAvCRQ1i8UrGgXd4BPrvBWaOnDgs9g/viewform
ai_machinelearning_big_data
Use words and images to generate new videos out of existing
Новейший ИИ-алгоритм Gen-1, который может изменить стиль видео по текстовому запросу или картинке.
ones.
https://research.runwayml.com/gen1
📌Request form: https://docs.google.com/forms/d/e/1FAIpQLSfU0O_i1dym30hEI33teAvCRQ1i8UrGgXd4BPrvBWaOnDgs9g/viewform
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍6❤1
🌐 Гайд по созданию Big Data-проектов в облаке
Big Data-проекты, как известно, проще реализовать в облаке из-за большого объема данных, внушительных вычислительных ресурсов, разветвленного технологического стека и мощной инфраструктуры.
На Хабр вышла интересная статья, где рассказывается о нюансах и неочевидных особенностях запуска процессов при работе с большими данными в облаке.
ai_machinelearning_big_data
Big Data-проекты, как известно, проще реализовать в облаке из-за большого объема данных, внушительных вычислительных ресурсов, разветвленного технологического стека и мощной инфраструктуры.
На Хабр вышла интересная статья, где рассказывается о нюансах и неочевидных особенностях запуска процессов при работе с большими данными в облаке.
ai_machinelearning_big_data
👍7🔥5🥰1
Hard Prompts Made Easy: Discrete Prompt Tuning for Language Models
From a given image, we first optimize a hard prompt using the PEZ algorithm and CLIP encoder.
Модель для преобразование изображений в текстовые подсказки для стабильной диффузии.
Автоматически генерирует текстовые подсказки как для преобразования текста в изображение, так и для преобразования текста в текст.
🖥 Github: https://github.com/YuxinWenRick/hard-prompts-made-easy
🖥 Colab: https://colab.research.google.com/drive/1VSFps4siwASXDwhK_o29dKA9COvTnG8A?usp=sharing
✅️ Paper: hhttps://arxiv.org/abs/2302.03668v1
⭐️ Dataset: https://paperswithcode.com/dataset/ag-news
ai_machinelearning_big_data
From a given image, we first optimize a hard prompt using the PEZ algorithm and CLIP encoder.
Модель для преобразование изображений в текстовые подсказки для стабильной диффузии.
Автоматически генерирует текстовые подсказки как для преобразования текста в изображение, так и для преобразования текста в текст.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍6🔥3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
The core idea is to represent the face in a video using two neural radiance fields, one for in-distribution and the other for out-of-distribution data, and compose them together for reconstruction.
Новая модель от Adobe Research, для редактирования видео с поддержкой 3D, позволяет манипулировать объектами в условиях сдвига данных. (OOD generalization).
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥4❤2🖕2
UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models
Унифицированный корректор (UniC) для диффузионных моделей для улучшения качества генераций, который работает значительно лучше, по сравнению с предыдущими методами.
🖥 Github: https://github.com/wl-zhao/unipc
💨 Project: https://unipc.ivg-research.xyz/
✅️ Paper: https://arxiv.org/abs/2302.04867v1
⭐️ Dataset: https://paperswithcode.com/dataset/lsun
ai_machinelearning_big_data
Унифицированный корректор (UniC) для диффузионных моделей для улучшения качества генераций, который работает значительно лучше, по сравнению с предыдущими методами.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🥰2❤1
🤗 PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware
Parameter-Efficient Fine-Tuning (PEFT) methods enable efficient adaptation of pre-trained language models (PLMs) to various downstream applications without fine-tuning all the model's paramete
PEFT позволяют добиться высокой производительности моделей на слабом железе, с небольшым количество обучаемых данных, .
🖥 Github: https://github.com/huggingface/peft
💨 Hugging Face: https://huggingface.co/blog/peft
🖥 Colab: https://colab.research.google.com/drive/1jCkpikz0J2o20FBQmYmAGdiKmJGOMo-o
ai_machinelearning_big_data
Parameter-Efficient Fine-Tuning (PEFT) methods enable efficient adaptation of pre-trained language models (PLMs) to various downstream applications without fine-tuning all the model's paramete
PEFT позволяют добиться высокой производительности моделей на слабом железе, с небольшым количество обучаемых данных, .
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥5❤2🗿1
💭 Speech Synthesis, Recognition, and More With SpeechT5
Новая модель для синтеза и распозновании речи SpeechT5 от huggingface.
▪преобразование речи в текст для автоматического распознавания речи и идентификации говорящего
▪преобразование текста в речь для синтеза звука
▪речь в речь для преобразования речи в разные голоса или улучшения речи.
🖥 Github: https://huggingface.co/blog/speecht5
💨 Demo: https://huggingface.co/spaces/Matthijs/speecht5-asr-demo
🗣 Voice Conversion: https://huggingface.co/spaces/Matthijs/speecht5-vc-demo
🗳Automatic Speech Recognition: https://huggingface.co/spaces/Matthijs/speecht5-asr-demo
ai_machinelearning_big_data
Новая модель для синтеза и распозновании речи SpeechT5 от huggingface.
▪преобразование речи в текст для автоматического распознавания речи и идентификации говорящего
▪преобразование текста в речь для синтеза звука
▪речь в речь для преобразования речи в разные голоса или улучшения речи.
🗣 Voice Conversion: https://huggingface.co/spaces/Matthijs/speecht5-vc-demo
🗳Automatic Speech Recognition: https://huggingface.co/spaces/Matthijs/speecht5-asr-demo
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🧩 LEGO-Net: Learning Regular Rearrangements of Objects in Rooms
Model takes an input messy scene and attempts to clean the scene via iterative denoising.
LEGO-Net итеративный метод обучения регулярной перестановке объектов в захламленных комнатах.
💨 Project: https://ivl.cs.brown.edu/#/projects/lego-net
✅️ Paper: https://arxiv.org/pdf/2301.09629.pdf
ai_machinelearning_big_data
Model takes an input messy scene and attempts to clean the scene via iterative denoising.
LEGO-Net итеративный метод обучения регулярной перестановке объектов в захламленных комнатах.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤4🥰3