⚡️ MotionDirector: Motion Customization of Text-to-Video Diffusion Models
MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.
🖥Github: https://github.com/showlab/MotionDirector
📕Paper: https://arxiv.org/abs/2310.08465
⭐️Project: showlab.github.io/MotionDirector/
@Devsp — Подписаться
MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.
🖥Github: https://github.com/showlab/MotionDirector
📕Paper: https://arxiv.org/abs/2310.08465
⭐️Project: showlab.github.io/MotionDirector/
@Devsp — Подписаться
✔️ AIJack: Security and Privacy Risk Simulator for Machine Learning
AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
🖥Code: https://github.com/Koukyosyumei/AIJack
📚Paper: https://arxiv.org/abs/2312.17667v1
⚡️Docs: https://koukyosyumei.github.io/AIJack/
@Devsp — Подписаться
AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
🖥Code: https://github.com/Koukyosyumei/AIJack
📚Paper: https://arxiv.org/abs/2312.17667v1
⚡️Docs: https://koukyosyumei.github.io/AIJack/
@Devsp — Подписаться
⚡️ LongAnimateDiff, a text2video model for generating extended videos.
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
🖥Code: https://github.com/Lightricks/LongAnimateDiff
🎓HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
@Devsp — Подписаться
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
🖥Code: https://github.com/Lightricks/LongAnimateDiff
🎓HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
@Devsp — Подписаться
🖼 AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.
🖥Github: https://github.com/guoyww/animatediff/
💻Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
📚Paper: https://arxiv.org/abs/2307.04725
📁Project: https://animatediff.github.io/
@Devsp — Подписаться
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.
🖥Github: https://github.com/guoyww/animatediff/
💻Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
📚Paper: https://arxiv.org/abs/2307.04725
📁Project: https://animatediff.github.io/
@Devsp — Подписаться
⚡️ Генеративные нейросети Яндекса попали в международный рейтинг ИИ-разработок
Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ AIPort опубликовали первый международный рейтинг Global Generative AI Landscape 2024. В него вошли текстовая YandexGPT и мультимодальная YandexART. Также компания стала одной из 11 мировых игроков, которые создали более одного типа GenAI-моделей.
@Devsp — Подписаться
Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ AIPort опубликовали первый международный рейтинг Global Generative AI Landscape 2024. В него вошли текстовая YandexGPT и мультимодальная YandexART. Также компания стала одной из 11 мировых игроков, которые создали более одного типа GenAI-моделей.
@Devsp — Подписаться
📚 LlaVa Demo with LlamaIndex
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.
🖥Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🔍Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🪩Paper: https://arxiv.org/abs/2304.08485
💻Website: https://llava-vl.github.io/
🔥YouTube: https://youtube.com/watch?v=k7i2BpeLUss
@Devsp — Подписаться
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.
🖥Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🔍Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🪩Paper: https://arxiv.org/abs/2304.08485
💻Website: https://llava-vl.github.io/
🔥YouTube: https://youtube.com/watch?v=k7i2BpeLUss
@Devsp — Подписаться
🔥 Clarity-Upscaler: Open-Source
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.
▪ code: https://github.com/philz1337x/clarity-upscaler
▪ page: https://clarityai.cc
@Devsp — Подписаться
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.
▪ code: https://github.com/philz1337x/clarity-upscaler
▪ page: https://clarityai.cc
@Devsp — Подписаться
🔥 Seamless: Multilingual Expressive and Streaming Speech Translation
Seamless — это семейство моделей искусственного интеллекта, которые обеспечивают более естественное и аутентичное общение на разных языках.
SeamlessM4T — это масштабная многоязычная мультимодальная модель машинного перевода, поддерживающая около 100 языков.
SeamlessM4T служит основой для SeamlessExpressive, модели, которая сохраняет элементы просодии и голосового стиля на разных языках, и SeamlessStreaming, модели, поддерживающей синхронный перевод и потоковую передачу ASR примерно для 100 языков.
🔥Hugging face demo: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724
⚡️BLog: https://ai.meta.com/blog/seamless-communication/
📚Paper: https://scontent.fbkk5-5.fna.fbcdn.net
🌟 Demo: https://seamless.metademolab.com/expressive
🖥Github: https://github.com/facebookresearch/seamless_communication
@Devsp — Подписаться
Seamless — это семейство моделей искусственного интеллекта, которые обеспечивают более естественное и аутентичное общение на разных языках.
SeamlessM4T — это масштабная многоязычная мультимодальная модель машинного перевода, поддерживающая около 100 языков.
SeamlessM4T служит основой для SeamlessExpressive, модели, которая сохраняет элементы просодии и голосового стиля на разных языках, и SeamlessStreaming, модели, поддерживающей синхронный перевод и потоковую передачу ASR примерно для 100 языков.
🔥Hugging face demo: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724
⚡️BLog: https://ai.meta.com/blog/seamless-communication/
📚Paper: https://scontent.fbkk5-5.fna.fbcdn.net
🌟 Demo: https://seamless.metademolab.com/expressive
🖥Github: https://github.com/facebookresearch/seamless_communication
@Devsp — Подписаться
🖥 Self-conditioned Image Generation via Generating Representations
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
🖥Github: https://github.com/LTH14/rcg
📚Paper: https://arxiv.org/abs/2312.03701
🌟 Dataset: https://paperswithcode.com/dataset/imagenet
@Devsp — Подписаться
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
🖥Github: https://github.com/LTH14/rcg
📚Paper: https://arxiv.org/abs/2312.03701
🌟 Dataset: https://paperswithcode.com/dataset/imagenet
@Devsp — Подписаться
🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
StyleTTS 2 — модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне.
StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.
🖥Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2
📚Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩Page: styletts2.github.io
@Devsp — Подписаться
StyleTTS 2 — модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне.
StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.
🖥Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2
📚Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩Page: styletts2.github.io
@Devsp — Подписаться
🚀 Graph Prompt Learning: A Comprehensive Survey and Beyond
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
🖥Code: https://github.com/wxxshirley/awesome-graph-prompt
🦾 Project: https://graphprompt.github.io/
📚Paper: https://arxiv.org/abs/2311.16534v1
@Devsp — Подписаться
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
🖥Code: https://github.com/wxxshirley/awesome-graph-prompt
🦾 Project: https://graphprompt.github.io/
📚Paper: https://arxiv.org/abs/2311.16534v1
@Devsp — Подписаться
🔥 Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models.
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
🖥Code: https://github.com/archerfmy/sd-t2i-360panoimage
📚Paper: https://arxiv.org/abs/2311.13141v1
🔗Dataset: https://paperswithcode.com/dataset/sun360
@Devsp — Подписаться
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
🖥Code: https://github.com/archerfmy/sd-t2i-360panoimage
📚Paper: https://arxiv.org/abs/2311.13141v1
🔗Dataset: https://paperswithcode.com/dataset/sun360
@Devsp — Подписаться
📦 Quantization Deep Dive, или Введение в современную квантизацию
Квантизация – это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Более компактное представление данных помогает экономить ресурсы и в целом улучшает пользовательский опыт. ML-разработчик Яндекса рассказал, как работает квантизация, рассмотрел методы и подсказал, в какой момент лучше квантизовать модель.
📚 Habr: https://habr.com/ru/companies/yandex/articles/800945/
@Devsp — Подписаться
Квантизация – это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Более компактное представление данных помогает экономить ресурсы и в целом улучшает пользовательский опыт. ML-разработчик Яндекса рассказал, как работает квантизация, рассмотрел методы и подсказал, в какой момент лучше квантизовать модель.
📚 Habr: https://habr.com/ru/companies/yandex/articles/800945/
@Devsp — Подписаться
🔉 MeloTTS is a high-quality multi-lingual text-to-speech library
MeloTTS — это высококачественная многоязычная библиотека преобразования текста в речь от MyShell.ai.
▪️Github
▪️Project
▪️Docs
@Devsp — Подписаться
MeloTTS — это высококачественная многоязычная библиотека преобразования текста в речь от MyShell.ai.
▪️Github
▪️Project
▪️Docs
@Devsp — Подписаться
🪞 Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
🖥Code: https://github.com/dangeng/visual_anagrams
🌟Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
🔥Project: https://dangeng.github.io/visual_anagrams/
📚Paper: https://arxiv.org/abs/2311.17919
@Devsp — Подписаться
Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.
Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.
🖥Code: https://github.com/dangeng/visual_anagrams
🌟Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
🔥Project: https://dangeng.github.io/visual_anagrams/
📚Paper: https://arxiv.org/abs/2311.17919
@Devsp — Подписаться
🪄 InternLM-XComposer
MORL-Baselines — это библиотека алгоритмов многоцелевого обучения с подкреплением (MORL).
Цель этого репозитория — содержать надежные реализации алгоритмов MORL в PyTorch.
🖥Code: https://github.com/lucasalegre/morl-baselines
🦾 Project: lucasalegre.github.io/morl-baselines
🖥Colab: https://colab.research.google.com/drive/1ByjuUp8-CJeh1giPOACqPGiglPxDnlSq?usp=sharing
📚Paper: https://arxiv.org/abs/2311.12495v1
🔗Dataset: https://paperswithcode.com/dataset/mo-gymnasium
@Devsp — Подписаться
MORL-Baselines — это библиотека алгоритмов многоцелевого обучения с подкреплением (MORL).
Цель этого репозитория — содержать надежные реализации алгоритмов MORL в PyTorch.
🖥Code: https://github.com/lucasalegre/morl-baselines
🦾 Project: lucasalegre.github.io/morl-baselines
🖥Colab: https://colab.research.google.com/drive/1ByjuUp8-CJeh1giPOACqPGiglPxDnlSq?usp=sharing
📚Paper: https://arxiv.org/abs/2311.12495v1
🔗Dataset: https://paperswithcode.com/dataset/mo-gymnasium
@Devsp — Подписаться
🖼 One-Step Image Translation with Text-to-Image Models
Модели CycleGAN-Turbo и pix2pix-turbo могут выполнять различные задачи перевода изображения в изображение как для парных, так и для непарных настроек.
CycleGAN-Turbo превосходит существующие методы на основе GAN и диффузии, а pix2pix-Turbo находится на одном уровне с недавними работами, такими как ControlNet для Sketch2Photo и Edge2Image, но с одношаговым выводом.
▪️Paper: https://arxiv.org/abs/2403.12036
▪️Code: https://github.com/GaParmar/img2img-turbo
▪️Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch
@Devsp — Подписаться
Модели CycleGAN-Turbo и pix2pix-turbo могут выполнять различные задачи перевода изображения в изображение как для парных, так и для непарных настроек.
CycleGAN-Turbo превосходит существующие методы на основе GAN и диффузии, а pix2pix-Turbo находится на одном уровне с недавними работами, такими как ControlNet для Sketch2Photo и Edge2Image, но с одношаговым выводом.
▪️Paper: https://arxiv.org/abs/2403.12036
▪️Code: https://github.com/GaParmar/img2img-turbo
▪️Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch
@Devsp — Подписаться
📢 𝐕𝐨𝐢𝐜𝐞𝐂𝐫𝐚𝐟𝐭: Zero-Shot Speech Editing and Text-to-Speech in the Wild🪄
VoiceCraft — это языковая модель нейронного кодека, заполняющая токены, которая обеспечивает высочайшую производительность как при редактировании речи, так и при преобразовании текста в речь (TTS) с нулевым количеством кадров для реальных данных, включая аудиокниги, интернет-видео и подкасты.
Чтобы клонировать или редактировать невидимый голос, VoiceCraft требуется всего несколько секунд справки.
▪Github
▪Paper
▪Project
@Devsp — Подписаться
VoiceCraft — это языковая модель нейронного кодека, заполняющая токены, которая обеспечивает высочайшую производительность как при редактировании речи, так и при преобразовании текста в речь (TTS) с нулевым количеством кадров для реальных данных, включая аудиокниги, интернет-видео и подкасты.
Чтобы клонировать или редактировать невидимый голос, VoiceCraft требуется всего несколько секунд справки.
▪Github
▪Paper
▪Project
@Devsp — Подписаться
🪴 SceneScript: an AI model and method
to understand and describe 3D spaces
SceneScript — это метод представления и определения геометрии сцены
с использованием авторегрессионной структурированной языковой модели и сквозного обучения.
SceneScript использует тот же метод прогнозирования следующего токена, что и модели на большом языке. Это дает моделям ИИ словарный запас, необходимый для рассуждений о физических пространствах.
▪Paper
▪Project
▪Dataset
@Devsp — Подписаться
to understand and describe 3D spaces
SceneScript — это метод представления и определения геометрии сцены
с использованием авторегрессионной структурированной языковой модели и сквозного обучения.
SceneScript использует тот же метод прогнозирования следующего токена, что и модели на большом языке. Это дает моделям ИИ словарный запас, необходимый для рассуждений о физических пространствах.
▪Paper
▪Project
▪Dataset
@Devsp — Подписаться