🖥 Self-conditioned Image Generation via Generating Representations
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
🖥Github: https://github.com/LTH14/rcg
📚Paper: https://arxiv.org/abs/2312.03701
🌟 Dataset: https://paperswithcode.com/dataset/imagenet
@Devsp — Подписаться
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
🖥Github: https://github.com/LTH14/rcg
📚Paper: https://arxiv.org/abs/2312.03701
🌟 Dataset: https://paperswithcode.com/dataset/imagenet
@Devsp — Подписаться
🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
StyleTTS 2 — модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне.
StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.
🖥Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2
📚Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩Page: styletts2.github.io
@Devsp — Подписаться
StyleTTS 2 — модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне.
StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.
🖥Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2
📚Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩Page: styletts2.github.io
@Devsp — Подписаться
🚀 Graph Prompt Learning: A Comprehensive Survey and Beyond
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
🖥Code: https://github.com/wxxshirley/awesome-graph-prompt
🦾 Project: https://graphprompt.github.io/
📚Paper: https://arxiv.org/abs/2311.16534v1
@Devsp — Подписаться
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
🖥Code: https://github.com/wxxshirley/awesome-graph-prompt
🦾 Project: https://graphprompt.github.io/
📚Paper: https://arxiv.org/abs/2311.16534v1
@Devsp — Подписаться
🔥 Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models.
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
🖥Code: https://github.com/archerfmy/sd-t2i-360panoimage
📚Paper: https://arxiv.org/abs/2311.13141v1
🔗Dataset: https://paperswithcode.com/dataset/sun360
@Devsp — Подписаться
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
🖥Code: https://github.com/archerfmy/sd-t2i-360panoimage
📚Paper: https://arxiv.org/abs/2311.13141v1
🔗Dataset: https://paperswithcode.com/dataset/sun360
@Devsp — Подписаться
📦 Quantization Deep Dive, или Введение в современную квантизацию
Квантизация – это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Более компактное представление данных помогает экономить ресурсы и в целом улучшает пользовательский опыт. ML-разработчик Яндекса рассказал, как работает квантизация, рассмотрел методы и подсказал, в какой момент лучше квантизовать модель.
📚 Habr: https://habr.com/ru/companies/yandex/articles/800945/
@Devsp — Подписаться
Квантизация – это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Более компактное представление данных помогает экономить ресурсы и в целом улучшает пользовательский опыт. ML-разработчик Яндекса рассказал, как работает квантизация, рассмотрел методы и подсказал, в какой момент лучше квантизовать модель.
📚 Habr: https://habr.com/ru/companies/yandex/articles/800945/
@Devsp — Подписаться
🔉 MeloTTS is a high-quality multi-lingual text-to-speech library
MeloTTS — это высококачественная многоязычная библиотека преобразования текста в речь от MyShell.ai.
▪️Github
▪️Project
▪️Docs
@Devsp — Подписаться
MeloTTS — это высококачественная многоязычная библиотека преобразования текста в речь от MyShell.ai.
▪️Github
▪️Project
▪️Docs
@Devsp — Подписаться
🪞 Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
🖥Code: https://github.com/dangeng/visual_anagrams
🌟Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
🔥Project: https://dangeng.github.io/visual_anagrams/
📚Paper: https://arxiv.org/abs/2311.17919
@Devsp — Подписаться
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
🖥Code: https://github.com/dangeng/visual_anagrams
🌟Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
🔥Project: https://dangeng.github.io/visual_anagrams/
📚Paper: https://arxiv.org/abs/2311.17919
@Devsp — Подписаться
🪄 InternLM-XComposer
MORL-Baselines — это библиотека алгоритмов многоцелевого обучения с подкреплением (MORL).
Цель этого репозитория — содержать надежные реализации алгоритмов MORL в PyTorch.
🖥Code: https://github.com/lucasalegre/morl-baselines
🦾 Project: lucasalegre.github.io/morl-baselines
🖥Colab: https://colab.research.google.com/drive/1ByjuUp8-CJeh1giPOACqPGiglPxDnlSq?usp=sharing
📚Paper: https://arxiv.org/abs/2311.12495v1
🔗Dataset: https://paperswithcode.com/dataset/mo-gymnasium
@Devsp — Подписаться
MORL-Baselines — это библиотека алгоритмов многоцелевого обучения с подкреплением (MORL).
Цель этого репозитория — содержать надежные реализации алгоритмов MORL в PyTorch.
🖥Code: https://github.com/lucasalegre/morl-baselines
🦾 Project: lucasalegre.github.io/morl-baselines
🖥Colab: https://colab.research.google.com/drive/1ByjuUp8-CJeh1giPOACqPGiglPxDnlSq?usp=sharing
📚Paper: https://arxiv.org/abs/2311.12495v1
🔗Dataset: https://paperswithcode.com/dataset/mo-gymnasium
@Devsp — Подписаться
🖼 One-Step Image Translation with Text-to-Image Models
Модели CycleGAN-Turbo и pix2pix-turbo могут выполнять различные задачи перевода изображения в изображение как для парных, так и для непарных настроек.
CycleGAN-Turbo превосходит существующие методы на основе GAN и диффузии, а pix2pix-Turbo находится на одном уровне с недавними работами, такими как ControlNet для Sketch2Photo и Edge2Image, но с одношаговым выводом.
▪️Paper: https://arxiv.org/abs/2403.12036
▪️Code: https://github.com/GaParmar/img2img-turbo
▪️Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch
@Devsp — Подписаться
Модели CycleGAN-Turbo и pix2pix-turbo могут выполнять различные задачи перевода изображения в изображение как для парных, так и для непарных настроек.
CycleGAN-Turbo превосходит существующие методы на основе GAN и диффузии, а pix2pix-Turbo находится на одном уровне с недавними работами, такими как ControlNet для Sketch2Photo и Edge2Image, но с одношаговым выводом.
▪️Paper: https://arxiv.org/abs/2403.12036
▪️Code: https://github.com/GaParmar/img2img-turbo
▪️Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch
@Devsp — Подписаться
📢 𝐕𝐨𝐢𝐜𝐞𝐂𝐫𝐚𝐟𝐭: Zero-Shot Speech Editing and Text-to-Speech in the Wild🪄
VoiceCraft — это языковая модель нейронного кодека, заполняющая токены, которая обеспечивает высочайшую производительность как при редактировании речи, так и при преобразовании текста в речь (TTS) с нулевым количеством кадров для реальных данных, включая аудиокниги, интернет-видео и подкасты.
Чтобы клонировать или редактировать невидимый голос, VoiceCraft требуется всего несколько секунд справки.
▪Github
▪Paper
▪Project
@Devsp — Подписаться
VoiceCraft — это языковая модель нейронного кодека, заполняющая токены, которая обеспечивает высочайшую производительность как при редактировании речи, так и при преобразовании текста в речь (TTS) с нулевым количеством кадров для реальных данных, включая аудиокниги, интернет-видео и подкасты.
Чтобы клонировать или редактировать невидимый голос, VoiceCraft требуется всего несколько секунд справки.
▪Github
▪Paper
▪Project
@Devsp — Подписаться
🪴 SceneScript: an AI model and method
to understand and describe 3D spaces
SceneScript — это метод представления и определения геометрии сцены
с использованием авторегрессионной структурированной языковой модели и сквозного обучения.
SceneScript использует тот же метод прогнозирования следующего токена, что и модели на большом языке. Это дает моделям ИИ словарный запас, необходимый для рассуждений о физических пространствах.
▪Paper
▪Project
▪Dataset
@Devsp — Подписаться
to understand and describe 3D spaces
SceneScript — это метод представления и определения геометрии сцены
с использованием авторегрессионной структурированной языковой модели и сквозного обучения.
SceneScript использует тот же метод прогнозирования следующего токена, что и модели на большом языке. Это дает моделям ИИ словарный запас, необходимый для рассуждений о физических пространствах.
▪Paper
▪Project
▪Dataset
@Devsp — Подписаться
🔊 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
Qwen-Audio — это мультимодальная версия большой серии моделей Qwen, предложенной Alibaba Cloud. Qwen-Audio принимает разнообразный звук (человеческую речь, естественный звук, музыку и песни) и текст в качестве входных данных и выводит текст.
🐱 Github: https://github.com/qwenlm/qwen-audio
🚀 Demo: https://qwen-audio.github.io/Qwen-Audio/
📕Paper: https://arxiv.org/abs/2311.07919v1
⏩Dataset: https://paperswithcode.com/dataset/vocalsound
@Devsp — Подписаться
Qwen-Audio — это мультимодальная версия большой серии моделей Qwen, предложенной Alibaba Cloud. Qwen-Audio принимает разнообразный звук (человеческую речь, естественный звук, музыку и песни) и текст в качестве входных данных и выводит текст.
🐱 Github: https://github.com/qwenlm/qwen-audio
🚀 Demo: https://qwen-audio.github.io/Qwen-Audio/
📕Paper: https://arxiv.org/abs/2311.07919v1
⏩Dataset: https://paperswithcode.com/dataset/vocalsound
@Devsp — Подписаться
🏆 LLaMA2-Accessory: An Open-source Toolkit for LLM Development
LLaMA2-Accessory — это набор инструментов с открытым исходным кодом для предварительного обучения, точной настройки и развертывания моделей большого языка (LLM) и мультимодальных LLM.
🐱 Github: https://github.com/alpha-vllm/llama2-accessory
🚀 Demo: http://imagebind-llm.opengvlab.com/
📕Paper: https://arxiv.org/abs/2311.07575v1
⏩Project: llama2-accessory.readthedocs.io/
⭐Dataset: https://paperswithcode.com/dataset/vsr
@Devsp — Подписаться
LLaMA2-Accessory — это набор инструментов с открытым исходным кодом для предварительного обучения, точной настройки и развертывания моделей большого языка (LLM) и мультимодальных LLM.
🐱 Github: https://github.com/alpha-vllm/llama2-accessory
🚀 Demo: http://imagebind-llm.opengvlab.com/
📕Paper: https://arxiv.org/abs/2311.07575v1
⏩Project: llama2-accessory.readthedocs.io/
⭐Dataset: https://paperswithcode.com/dataset/vsr
@Devsp — Подписаться
🎧Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model
Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
🖥 Github: https://github.com/amaai-lab/video2music
📕Paper: https://arxiv.org/abs/2311.00968v1
⏩Demo: https://llmrec.github.io/
🌐 Dataset: https://zenodo.org/records/10057093
@Devsp — Подписаться
Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.
Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.
🖥 Github: https://github.com/amaai-lab/video2music
📕Paper: https://arxiv.org/abs/2311.00968v1
⏩Demo: https://llmrec.github.io/
🌐 Dataset: https://zenodo.org/records/10057093
@Devsp — Подписаться
🧬 Evolving New Foundation Models: Unleashing the Power of Automating Model Development
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
▪Blog: https://sakana.ai/evolutionary-model-merge/
▪Paper: https://arxiv.org/abs/2403.13187
@Devsp — Подписаться
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.
Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
▪Blog: https://sakana.ai/evolutionary-model-merge/
▪Paper: https://arxiv.org/abs/2403.13187
@Devsp — Подписаться
🖼 One-Step Image Translation with Text-to-Image Models
CycleGAN-Turbo — общий метод адаптации одношаговой диффузионной модели, такой как SD-Turbo, к новым задачам и областям посредством состязательного обучения.
Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.
▪Paper: https://arxiv.org/abs/2403.12036
▪Code: https://github.com/GaParmar/img2img-turbo
▪Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch
@Devsp — Подписаться
CycleGAN-Turbo — общий метод адаптации одношаговой диффузионной модели, такой как SD-Turbo, к новым задачам и областям посредством состязательного обучения.
Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.
▪Paper: https://arxiv.org/abs/2403.12036
▪Code: https://github.com/GaParmar/img2img-turbo
▪Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch
@Devsp — Подписаться
🎓 OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
Автономное взаимодействие с компьютером уже давно является проблемой с огромным потенциалом, а недавнее распространение больших языковых моделей (LLM) заметно ускорило прогресс в создании цифровых агентов.
Однако большинство этих агентов предназначены для взаимодействия с узкой областью, например с конкретным программным обеспечением или веб-сайтом.
OS-Copilot - это новаторская основа для создания универсальных компьютерных агентов, которая обеспечивает единый интерфейс для взаимодействия приложений в экосистеме ОС.
Самосовершенствующийся помощник с искусственным интеллектом, способного решать общие компьютерные задачи.
Агент может взаимодействовать со всеми элементами операционной системы (ОС), включая работу в сети, написание кода, работу с файлами и мультимедиа, работу различными сторонними приложениями.
▪️Github
▪️Project
▪️Статья
@Devsp — Подписаться
Автономное взаимодействие с компьютером уже давно является проблемой с огромным потенциалом, а недавнее распространение больших языковых моделей (LLM) заметно ускорило прогресс в создании цифровых агентов.
Однако большинство этих агентов предназначены для взаимодействия с узкой областью, например с конкретным программным обеспечением или веб-сайтом.
OS-Copilot - это новаторская основа для создания универсальных компьютерных агентов, которая обеспечивает единый интерфейс для взаимодействия приложений в экосистеме ОС.
Самосовершенствующийся помощник с искусственным интеллектом, способного решать общие компьютерные задачи.
Агент может взаимодействовать со всеми элементами операционной системы (ОС), включая работу в сети, написание кода, работу с файлами и мультимедиа, работу различными сторонними приложениями.
▪️Github
▪️Project
▪️Статья
@Devsp — Подписаться
🐬 ShareGPT4V:Improving Large Multi-Modal Models with Better Captions
В сфере больших мультимодальных моделей (LMM) эффективное согласование модальностей имеет решающее значение, но часто ограничивается нехваткой высококачественных данных изображения и текста.
Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.
ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.
🖥Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
🦾 Project: https://sharegpt4v.github.io/
⚡️Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
📚Paper: https://arxiv.org/pdf/2311.12793.pdf
🔗Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
@Devsp — Подписаться
В сфере больших мультимодальных моделей (LMM) эффективное согласование модальностей имеет решающее значение, но часто ограничивается нехваткой высококачественных данных изображения и текста.
Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.
ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.
🖥Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
🦾 Project: https://sharegpt4v.github.io/
⚡️Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
📚Paper: https://arxiv.org/pdf/2311.12793.pdf
🔗Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
@Devsp — Подписаться
🌊 LaVague: automate automation with Large Action Model framework
LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.
▪Github: https://github.com/lavague-ai/LaVague
▪Docs: https://docs.lavague.ai/en/latest/docs/
▪Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
@Devsp — Подписаться
LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.
▪Github: https://github.com/lavague-ai/LaVague
▪Docs: https://docs.lavague.ai/en/latest/docs/
▪Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb
@Devsp — Подписаться
☕️ Latte: Latent Diffusion Transformer for Video Generation
Новый трансформер скрытой диффузии Latte, для генерации видео.
Latte сначала извлекает пространственно-временные маркеры из входных видео, а затем использует серию блоков-трансформеров для генерации видео в скрытом пространстве.
Latte дает ценную информацию для будущих исследований по включению Трансформеров в модели диффузии для генерации видео.
▪️Github
▪️Project
▪️Paper
@Devsp — Подписаться
Новый трансформер скрытой диффузии Latte, для генерации видео.
Latte сначала извлекает пространственно-временные маркеры из входных видео, а затем использует серию блоков-трансформеров для генерации видео в скрытом пространстве.
Latte дает ценную информацию для будущих исследований по включению Трансформеров в модели диффузии для генерации видео.
▪️Github
▪️Project
▪️Paper
@Devsp — Подписаться