Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​⚡️ MotionDirector: Motion Customization of Text-to-Video Diffusion Models

MotionDirector может настраивать модели распространения текста в видео для создания видеороликов с желаемыми движениями.

🖥Github: https://github.com/showlab/MotionDirector

📕Paper: https://arxiv.org/abs/2310.08465

⭐️Project: showlab.github.io/MotionDirector/

@DevspПодписаться
​​✔️ AIJack: Security and Privacy Risk Simulator for Machine Learning

AIJack — это простой в использовании инструмент моделирования с открытым исходным кодом для проверки безопасности вашей системы искусственного интеллекта от угонщиков.

Он предоставляет передовые методы безопасности, такие как дифференциальная конфиденциальность, гомоморфное шифрование, K-анонимность и федеративное обучение, чтобы гарантировать защиту вашего ИИ.

🖥Code: https://github.com/Koukyosyumei/AIJack

📚Paper: https://arxiv.org/abs/2312.17667v1

⚡️Docs: https://koukyosyumei.github.io/AIJack/

@DevspПодписаться
​​⚡️ LongAnimateDiff, a text2video model for generating extended videos.

Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.

Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.

🖥Code: https://github.com/Lightricks/LongAnimateDiff

🎓HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff

@DevspПодписаться
​​🖼 AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.

🖥Github: https://github.com/guoyww/animatediff/

💻Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb

📚Paper: https://arxiv.org/abs/2307.04725

📁Project: https://animatediff.github.io/

@DevspПодписаться
​​🚀 Pix2Gif: Motion-Guided Diffusion for GIF Generation

Модель построена на основе стабильной диффузии, но с новым модулем деформации с управлением движением.

Github
Page
Paper
Demo

@DevspПодписаться
⚡️ Генеративные нейросети Яндекса попали в международный рейтинг ИИ-разработок

Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ AIPort опубликовали первый международный рейтинг Global Generative AI Landscape 2024. В него вошли текстовая YandexGPT и мультимодальная YandexART. Также компания стала одной из 11 мировых игроков, которые создали более одного типа GenAI-моделей.

@DevspПодписаться
​​🔥 Convolutional Reconstruction Model

Модель сверточной реконструкции (CRM), высокоточную генеративную модель прямого преобразования одного изображения в 3D.

Github
Page
Paper

@DevspПодписаться
​​📚 LlaVa Demo with LlamaIndex

LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.

🖥Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

🔍Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

🪩Paper: https://arxiv.org/abs/2304.08485

💻Website: https://llava-vl.github.io/

🔥YouTube: https://youtube.com/watch?v=k7i2BpeLUss

@DevspПодписаться
​​🔥 Clarity-Upscaler: Open-Source

ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.

code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc

@DevspПодписаться
​​🔥 Seamless: Multilingual Expressive and Streaming Speech Translation

Seamless — это семейство моделей искусственного интеллекта, которые обеспечивают более естественное и аутентичное общение на разных языках.

SeamlessM4T — это масштабная многоязычная мультимодальная модель машинного перевода, поддерживающая около 100 языков.

SeamlessM4T служит основой для SeamlessExpressive, модели, которая сохраняет элементы просодии и голосового стиля на разных языках, и SeamlessStreaming, модели, поддерживающей синхронный перевод и потоковую передачу ASR примерно для 100 языков.

🔥Hugging face demo: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724

⚡️BLog: https://ai.meta.com/blog/seamless-communication/

📚Paper: https://scontent.fbkk5-5.fna.fbcdn.net

🌟 Demo: https://seamless.metademolab.com/expressive

🖥Github: https://github.com/facebookresearch/seamless_communication

@DevspПодписаться
​​🖥 Self-conditioned Image Generation via Generating Representations

RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.

🖥Github: https://github.com/LTH14/rcg

📚Paper: https://arxiv.org/abs/2312.03701

🌟 Dataset: https://paperswithcode.com/dataset/imagenet

@DevspПодписаться
​​🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

StyleTTS 2 — модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне.

StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.

🖥Github: https://github.com/yl4579/StyleTTS2

🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/

⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2

📚Paper: https://arxiv.org/abs/2306.07691

🌟 Demo: https://seamless.metademolab.com/expressive

🥩Page: styletts2.github.io

@DevspПодписаться
​​🚀 Graph Prompt Learning: A Comprehensive Survey and Beyond

Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.

🖥Code: https://github.com/wxxshirley/awesome-graph-prompt

🦾 Project: https://graphprompt.github.io/

📚Paper: https://arxiv.org/abs/2311.16534v1

@DevspПодписаться
​​🔥 Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models.

Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.

🖥Code: https://github.com/archerfmy/sd-t2i-360panoimage

📚Paper: https://arxiv.org/abs/2311.13141v1

🔗Dataset: https://paperswithcode.com/dataset/sun360

@DevspПодписаться
📦 Quantization Deep Dive, или Введение в современную квантизацию

Квантизация – это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Более компактное представление данных помогает экономить ресурсы и в целом улучшает пользовательский опыт. ML-разработчик Яндекса рассказал, как работает квантизация, рассмотрел методы и подсказал, в какой момент лучше квантизовать модель.

📚 Habr: https://habr.com/ru/companies/yandex/articles/800945/

@DevspПодписаться
​​🔉 MeloTTS is a high-quality multi-lingual text-to-speech library

MeloTTS — это высококачественная многоязычная библиотека преобразования текста в речь от MyShell.ai.

▪️Github
▪️Project
▪️Docs

@DevspПодписаться
​​🪞 Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models

Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.

Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.

🖥Code: https://github.com/dangeng/visual_anagrams

🌟Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing

🔥Project: https://dangeng.github.io/visual_anagrams/

📚Paper: https://arxiv.org/abs/2311.17919

@DevspПодписаться
​​🪄 InternLM-XComposer

MORL-Baselines — это библиотека алгоритмов многоцелевого обучения с подкреплением (MORL).

Цель этого репозитория — содержать надежные реализации алгоритмов MORL в PyTorch.

🖥Code: https://github.com/lucasalegre/morl-baselines

🦾 Project: lucasalegre.github.io/morl-baselines

🖥Colab: https://colab.research.google.com/drive/1ByjuUp8-CJeh1giPOACqPGiglPxDnlSq?usp=sharing

📚Paper: https://arxiv.org/abs/2311.12495v1

🔗Dataset: https://paperswithcode.com/dataset/mo-gymnasium

@DevspПодписаться
​​🖼 One-Step Image Translation with Text-to-Image Models

Модели CycleGAN-Turbo и pix2pix-turbo могут выполнять различные задачи перевода изображения в изображение как для парных, так и для непарных настроек.

CycleGAN-Turbo превосходит существующие методы на основе GAN и диффузии, а pix2pix-Turbo находится на одном уровне с недавними работами, такими как ControlNet для Sketch2Photo и Edge2Image, но с одношаговым выводом.

▪️Paper: https://arxiv.org/abs/2403.12036
▪️Code: https://github.com/GaParmar/img2img-turbo
▪️Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch

@DevspПодписаться
​​📢 𝐕𝐨𝐢𝐜𝐞𝐂𝐫𝐚𝐟𝐭: Zero-Shot Speech Editing and Text-to-Speech in the Wild🪄

VoiceCraft — это языковая модель нейронного кодека, заполняющая токены, которая обеспечивает высочайшую производительность как при редактировании речи, так и при преобразовании текста в речь (TTS) с нулевым количеством кадров для реальных данных, включая аудиокниги, интернет-видео и подкасты.

Чтобы клонировать или редактировать невидимый голос, VoiceCraft требуется всего несколько секунд справки.

Github
Paper
Project

@DevspПодписаться