🖼 Differential Diffusion: Giving Each Pixel Its Strength
В этом документе представлена новая структура, которая позволяет настраивать количество изменений на пиксель или на область изображения. Нашу структуру можно интегрировать в любую существующую модель распространения, дополнив ее этой возможностью. Такой детальный контроль над количеством изменений открывает широкий спектр новых возможностей редактирования, таких как контроль степени изменения отдельных объектов или возможность вводить постепенные пространственные изменения.
▪code: github.com/exx8/differential-diffusion
▪page: differential-diffusion.github.io
▪paper: arxiv.org/abs/2306.00950
@Devsp — Подписаться
В этом документе представлена новая структура, которая позволяет настраивать количество изменений на пиксель или на область изображения. Нашу структуру можно интегрировать в любую существующую модель распространения, дополнив ее этой возможностью. Такой детальный контроль над количеством изменений открывает широкий спектр новых возможностей редактирования, таких как контроль степени изменения отдельных объектов или возможность вводить постепенные пространственные изменения.
▪code: github.com/exx8/differential-diffusion
▪page: differential-diffusion.github.io
▪paper: arxiv.org/abs/2306.00950
@Devsp — Подписаться
🖥 Self-conditioned Image Generation via Generating Representations
Набор данных ImageNet содержит 14 197 122 аннотированных изображения в соответствии с иерархией WordNet. С 2010 года набор данных используется в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC), эталоне в классификации изображений и обнаружении объектов. Публично опубликованный набор данных содержит набор обучающих изображений, аннотированных вручную.
🖥Github: https://github.com/LTH14/rcg
📚Paper: https://arxiv.org/abs/2312.03701
🌟 Dataset: https://paperswithcode.com/dataset/imagenet
@Devsp — Подписаться
Набор данных ImageNet содержит 14 197 122 аннотированных изображения в соответствии с иерархией WordNet. С 2010 года набор данных используется в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC), эталоне в классификации изображений и обнаружении объектов. Публично опубликованный набор данных содержит набор обучающих изображений, аннотированных вручную.
🖥Github: https://github.com/LTH14/rcg
📚Paper: https://arxiv.org/abs/2312.03701
🌟 Dataset: https://paperswithcode.com/dataset/imagenet
@Devsp — Подписаться
🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
В этой статье мы представляем StyleTTS 2, модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне. StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.
🖥Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2
📚Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩Page: styletts2.github.io
@Devsp — Подписаться
В этой статье мы представляем StyleTTS 2, модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне. StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.
🖥Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2
📚Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩Page: styletts2.github.io
@Devsp — Подписаться
🏎 TripoSR: Fast 3D Object Reconstruction from a Single Image
TripoSR, современной модели с открытым исходным кодом для быстрой 3D-реконструкции с прямой связью из одного изображения, совместно разработанной Tripo AI и Stability AI.
Используя принципы Большой модели реконструкции (LRM), TripoSR предлагает ключевые достижения, которые значительно повышают скорость и качество 3D-реконструкции.
▪page: https://tripo3d.ai
▪paper: https://drive.google.com/file/d/1LWlZPT2aASi9jHiGVhDSr4YCTANoFW5t/view
▪code: https://github.com/VAST-AI-Research/TripoSR
@Devsp — Подписаться
TripoSR, современной модели с открытым исходным кодом для быстрой 3D-реконструкции с прямой связью из одного изображения, совместно разработанной Tripo AI и Stability AI.
Используя принципы Большой модели реконструкции (LRM), TripoSR предлагает ключевые достижения, которые значительно повышают скорость и качество 3D-реконструкции.
▪page: https://tripo3d.ai
▪paper: https://drive.google.com/file/d/1LWlZPT2aASi9jHiGVhDSr4YCTANoFW5t/view
▪code: https://github.com/VAST-AI-Research/TripoSR
@Devsp — Подписаться
😍 PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator
Rectified Flow — многообещающий способ ускорения предварительно обученных диффузионных моделей.
Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).
▪Github
▪Project
@Devsp — Подписаться
Rectified Flow — многообещающий способ ускорения предварительно обученных диффузионных моделей.
Новая модель изучает кусочно-линейный вероятностный поток, который может эффективно генерировать высококачественные изображения всего за 4 шага, называемый кусочно-выпрямленным потоком (PerFlow).
▪Github
▪Project
@Devsp — Подписаться
🤓Learning to Learn Faster from Human Feedback with Language Model Predictive Control
Было показано, что большие языковые модели (LLM) демонстрируют широкий спектр возможностей, таких как написание кода робота из языковых команд, что позволяет неспециалистам управлять поведением роботов, изменять их на основе обратной связи или составлять их для выполнения новых задач.
Однако эти возможности (обеспечиваемые контекстным обучением) ограничены краткосрочными взаимодействиями, при которых отзывы пользователей остаются актуальными только до тех пор, пока они соответствуют размеру контекста LLM, и могут быть забыты при длительных взаимодействиях.
В этой работе мы изучаем тонкую настройку LLM для написания кода роботами, чтобы запомнить их контекстное взаимодействие и улучшить их обучаемость.
▪proj: https://robot-teaching.github.io
▪paper: https://arxiv.org/abs/2402.11450
▪code: https://colab.research.google.com/drive/1YcRN_kklw3cVVJNvgK_IEV6nDce9EJWK
@Devsp — Подписаться
Было показано, что большие языковые модели (LLM) демонстрируют широкий спектр возможностей, таких как написание кода робота из языковых команд, что позволяет неспециалистам управлять поведением роботов, изменять их на основе обратной связи или составлять их для выполнения новых задач.
Однако эти возможности (обеспечиваемые контекстным обучением) ограничены краткосрочными взаимодействиями, при которых отзывы пользователей остаются актуальными только до тех пор, пока они соответствуют размеру контекста LLM, и могут быть забыты при длительных взаимодействиях.
В этой работе мы изучаем тонкую настройку LLM для написания кода роботами, чтобы запомнить их контекстное взаимодействие и улучшить их обучаемость.
▪proj: https://robot-teaching.github.io
▪paper: https://arxiv.org/abs/2402.11450
▪code: https://colab.research.google.com/drive/1YcRN_kklw3cVVJNvgK_IEV6nDce9EJWK
@Devsp — Подписаться
⚡️ MotionDirector: Motion Customization of Text-to-Video Diffusion Models
MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.
🖥Github: https://github.com/showlab/MotionDirector
📕Paper: https://arxiv.org/abs/2310.08465
⭐️Project: showlab.github.io/MotionDirector/
@Devsp — Подписаться
MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.
🖥Github: https://github.com/showlab/MotionDirector
📕Paper: https://arxiv.org/abs/2310.08465
⭐️Project: showlab.github.io/MotionDirector/
@Devsp — Подписаться
✔️ AIJack: Security and Privacy Risk Simulator for Machine Learning
AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
🖥Code: https://github.com/Koukyosyumei/AIJack
📚Paper: https://arxiv.org/abs/2312.17667v1
⚡️Docs: https://koukyosyumei.github.io/AIJack/
@Devsp — Подписаться
AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.
Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.
🖥Code: https://github.com/Koukyosyumei/AIJack
📚Paper: https://arxiv.org/abs/2312.17667v1
⚡️Docs: https://koukyosyumei.github.io/AIJack/
@Devsp — Подписаться
⚡️ LongAnimateDiff, a text2video model for generating extended videos.
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
🖥Code: https://github.com/Lightricks/LongAnimateDiff
🎓HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
@Devsp — Подписаться
Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.
Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.
🖥Code: https://github.com/Lightricks/LongAnimateDiff
🎓HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
@Devsp — Подписаться
🖼 AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.
🖥Github: https://github.com/guoyww/animatediff/
💻Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
📚Paper: https://arxiv.org/abs/2307.04725
📁Project: https://animatediff.github.io/
@Devsp — Подписаться
Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.
🖥Github: https://github.com/guoyww/animatediff/
💻Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
📚Paper: https://arxiv.org/abs/2307.04725
📁Project: https://animatediff.github.io/
@Devsp — Подписаться
⚡️ Генеративные нейросети Яндекса попали в международный рейтинг ИИ-разработок
Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ AIPort опубликовали первый международный рейтинг Global Generative AI Landscape 2024. В него вошли текстовая YandexGPT и мультимодальная YandexART. Также компания стала одной из 11 мировых игроков, которые создали более одного типа GenAI-моделей.
@Devsp — Подписаться
Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ AIPort опубликовали первый международный рейтинг Global Generative AI Landscape 2024. В него вошли текстовая YandexGPT и мультимодальная YandexART. Также компания стала одной из 11 мировых игроков, которые создали более одного типа GenAI-моделей.
@Devsp — Подписаться
📚 LlaVa Demo with LlamaIndex
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.
🖥Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🔍Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🪩Paper: https://arxiv.org/abs/2304.08485
💻Website: https://llava-vl.github.io/
🔥YouTube: https://youtube.com/watch?v=k7i2BpeLUss
@Devsp — Подписаться
LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.
🖥Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🔍Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🪩Paper: https://arxiv.org/abs/2304.08485
💻Website: https://llava-vl.github.io/
🔥YouTube: https://youtube.com/watch?v=k7i2BpeLUss
@Devsp — Подписаться
🔥 Clarity-Upscaler: Open-Source
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.
▪ code: https://github.com/philz1337x/clarity-upscaler
▪ page: https://clarityai.cc
@Devsp — Подписаться
ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.
▪ code: https://github.com/philz1337x/clarity-upscaler
▪ page: https://clarityai.cc
@Devsp — Подписаться
🔥 Seamless: Multilingual Expressive and Streaming Speech Translation
Seamless — это семейство моделей искусственного интеллекта, которые обеспечивают более естественное и аутентичное общение на разных языках.
SeamlessM4T — это масштабная многоязычная мультимодальная модель машинного перевода, поддерживающая около 100 языков.
SeamlessM4T служит основой для SeamlessExpressive, модели, которая сохраняет элементы просодии и голосового стиля на разных языках, и SeamlessStreaming, модели, поддерживающей синхронный перевод и потоковую передачу ASR примерно для 100 языков.
🔥Hugging face demo: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724
⚡️BLog: https://ai.meta.com/blog/seamless-communication/
📚Paper: https://scontent.fbkk5-5.fna.fbcdn.net
🌟 Demo: https://seamless.metademolab.com/expressive
🖥Github: https://github.com/facebookresearch/seamless_communication
@Devsp — Подписаться
Seamless — это семейство моделей искусственного интеллекта, которые обеспечивают более естественное и аутентичное общение на разных языках.
SeamlessM4T — это масштабная многоязычная мультимодальная модель машинного перевода, поддерживающая около 100 языков.
SeamlessM4T служит основой для SeamlessExpressive, модели, которая сохраняет элементы просодии и голосового стиля на разных языках, и SeamlessStreaming, модели, поддерживающей синхронный перевод и потоковую передачу ASR примерно для 100 языков.
🔥Hugging face demo: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724
⚡️BLog: https://ai.meta.com/blog/seamless-communication/
📚Paper: https://scontent.fbkk5-5.fna.fbcdn.net
🌟 Demo: https://seamless.metademolab.com/expressive
🖥Github: https://github.com/facebookresearch/seamless_communication
@Devsp — Подписаться
🖥 Self-conditioned Image Generation via Generating Representations
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
🖥Github: https://github.com/LTH14/rcg
📚Paper: https://arxiv.org/abs/2312.03701
🌟 Dataset: https://paperswithcode.com/dataset/imagenet
@Devsp — Подписаться
RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.
🖥Github: https://github.com/LTH14/rcg
📚Paper: https://arxiv.org/abs/2312.03701
🌟 Dataset: https://paperswithcode.com/dataset/imagenet
@Devsp — Подписаться
🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
StyleTTS 2 — модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне.
StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.
🖥Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2
📚Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩Page: styletts2.github.io
@Devsp — Подписаться
StyleTTS 2 — модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне.
StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.
🖥Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2
📚Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩Page: styletts2.github.io
@Devsp — Подписаться
🚀 Graph Prompt Learning: A Comprehensive Survey and Beyond
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
🖥Code: https://github.com/wxxshirley/awesome-graph-prompt
🦾 Project: https://graphprompt.github.io/
📚Paper: https://arxiv.org/abs/2311.16534v1
@Devsp — Подписаться
Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.
🖥Code: https://github.com/wxxshirley/awesome-graph-prompt
🦾 Project: https://graphprompt.github.io/
📚Paper: https://arxiv.org/abs/2311.16534v1
@Devsp — Подписаться
🔥 Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models.
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
🖥Code: https://github.com/archerfmy/sd-t2i-360panoimage
📚Paper: https://arxiv.org/abs/2311.13141v1
🔗Dataset: https://paperswithcode.com/dataset/sun360
@Devsp — Подписаться
Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.
🖥Code: https://github.com/archerfmy/sd-t2i-360panoimage
📚Paper: https://arxiv.org/abs/2311.13141v1
🔗Dataset: https://paperswithcode.com/dataset/sun360
@Devsp — Подписаться