Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​⚡️ LongAnimateDiff, a text2video model for generating extended videos.

Модель LongAnimateDiff обучена генерировать видео с переменным количеством кадров от 16 до 64 кадров.

Эта модель совместима с исходной моделью AnimateDiff. Для достижения оптимальных результатов мы рекомендуем использовать шкалу движения 1,15.

🖥Code: https://github.com/Lightricks/LongAnimateDiff

🎓HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff

@DevspПодписаться
​​🖼 AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Модуль Plug-and-Play, превращает большинство моделей сообщества в генераторы анимации без необходимости дополнительного обучения.

🖥Github: https://github.com/guoyww/animatediff/

💻Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb

📚Paper: https://arxiv.org/abs/2307.04725

📁Project: https://animatediff.github.io/

@DevspПодписаться
​​🚀 Pix2Gif: Motion-Guided Diffusion for GIF Generation

Модель построена на основе стабильной диффузии, но с новым модулем деформации с управлением движением.

Github
Page
Paper
Demo

@DevspПодписаться
⚡️ Генеративные нейросети Яндекса попали в международный рейтинг ИИ-разработок

Сообщество дата-саентистов, ML-экспертов и энтузиастов в сфере ИИ AIPort опубликовали первый международный рейтинг Global Generative AI Landscape 2024. В него вошли текстовая YandexGPT и мультимодальная YandexART. Также компания стала одной из 11 мировых игроков, которые создали более одного типа GenAI-моделей.

@DevspПодписаться
​​🔥 Convolutional Reconstruction Model

Модель сверточной реконструкции (CRM), высокоточную генеративную модель прямого преобразования одного изображения в 3D.

Github
Page
Paper

@DevspПодписаться
​​📚 LlaVa Demo with LlamaIndex

LlaVa+Replication позволяет нам локально запускать анализ изображений и объединять мультимодальные знания с нашей системой, основанной на знаниях RAG.

🖥Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

🔍Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

🪩Paper: https://arxiv.org/abs/2304.08485

💻Website: https://llava-vl.github.io/

🔥YouTube: https://youtube.com/watch?v=k7i2BpeLUss

@DevspПодписаться
​​🔥 Clarity-Upscaler: Open-Source

ClarityAI — это программа масштабирования высокого разрешения, которая также может улучшить ваши изображения и добавить детали. Вы можете решить, насколько хотите, чтобы ИИ добавлял детали к вашим изображениям.

code: https://github.com/philz1337x/clarity-upscaler
page: https://clarityai.cc

@DevspПодписаться
​​🔥 Seamless: Multilingual Expressive and Streaming Speech Translation

Seamless — это семейство моделей искусственного интеллекта, которые обеспечивают более естественное и аутентичное общение на разных языках.

SeamlessM4T — это масштабная многоязычная мультимодальная модель машинного перевода, поддерживающая около 100 языков.

SeamlessM4T служит основой для SeamlessExpressive, модели, которая сохраняет элементы просодии и голосового стиля на разных языках, и SeamlessStreaming, модели, поддерживающей синхронный перевод и потоковую передачу ASR примерно для 100 языков.

🔥Hugging face demo: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724

⚡️BLog: https://ai.meta.com/blog/seamless-communication/

📚Paper: https://scontent.fbkk5-5.fna.fbcdn.net

🌟 Demo: https://seamless.metademolab.com/expressive

🖥Github: https://github.com/facebookresearch/seamless_communication

@DevspПодписаться
​​🖥 Self-conditioned Image Generation via Generating Representations

RCG — это платформа для самостоятельной генерации изображений, которая обеспечивает производительность безусловной генерации изображений SOTA в ImageNet 256x256, устраняя давний разрыв в производительности между безусловной и классовой генерацией изображений.

🖥Github: https://github.com/LTH14/rcg

📚Paper: https://arxiv.org/abs/2312.03701

🌟 Dataset: https://paperswithcode.com/dataset/imagenet

@DevspПодписаться
​​🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

StyleTTS 2 — модель преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с помощью больших моделей речевого языка (SLM) для достижения синтеза TTS на человеческом уровне.

StyleTTS 2 отличается от своего предшественника тем, что моделирует стили как скрытую случайную величину с помощью моделей диффузии, чтобы генерировать наиболее подходящий стиль для текста, не требуя эталонной речи, достигая эффективной скрытой диффузии, одновременно используя разнообразный синтез речи, предлагаемый моделями диффузии.

🖥Github: https://github.com/yl4579/StyleTTS2

🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/

⚡️Demo: https://huggingface.co/spaces/styletts2/styletts2

📚Paper: https://arxiv.org/abs/2306.07691

🌟 Demo: https://seamless.metademolab.com/expressive

🥩Page: styletts2.github.io

@DevspПодписаться
​​🚀 Graph Prompt Learning: A Comprehensive Survey and Beyond

Целью этого репозитория является предоставление тщательно подобранного списка исследовательских работ, в которых исследуются подсказки на графиках.

🖥Code: https://github.com/wxxshirley/awesome-graph-prompt

🦾 Project: https://graphprompt.github.io/

📚Paper: https://arxiv.org/abs/2311.16534v1

@DevspПодписаться
​​🔥 Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models.

Цель базы данных панорам SUN360 — предоставить академическим исследователям в области компьютерного зрения, компьютерной графики и компьютерной фотографии, познания и нейронауки, человеческого восприятия, машинного обучения и интеллектуального анализа данных полную коллекцию аннотированных панорам, охватывающих полный обзор 360x180 градусов.

🖥Code: https://github.com/archerfmy/sd-t2i-360panoimage

📚Paper: https://arxiv.org/abs/2311.13141v1

🔗Dataset: https://paperswithcode.com/dataset/sun360

@DevspПодписаться
📦 Quantization Deep Dive, или Введение в современную квантизацию

Квантизация – это переход от типа данных с большим числом бит, например, float32 к типу с меньшим числом, такому как int8. Более компактное представление данных помогает экономить ресурсы и в целом улучшает пользовательский опыт. ML-разработчик Яндекса рассказал, как работает квантизация, рассмотрел методы и подсказал, в какой момент лучше квантизовать модель.

📚 Habr: https://habr.com/ru/companies/yandex/articles/800945/

@DevspПодписаться
​​🔉 MeloTTS is a high-quality multi-lingual text-to-speech library

MeloTTS — это высококачественная многоязычная библиотека преобразования текста в речь от MyShell.ai.

▪️Github
▪️Project
▪️Docs

@DevspПодписаться
​​🪞 Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models

Простой метод с нулевым выстрелом для создания многоракурсных оптических иллюзий.

Это изображения, которые выглядят как одно целое, но при трансформации меняют внешний вид или идентичность.

🖥Code: https://github.com/dangeng/visual_anagrams

🌟Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing

🔥Project: https://dangeng.github.io/visual_anagrams/

📚Paper: https://arxiv.org/abs/2311.17919

@DevspПодписаться
​​🪄 InternLM-XComposer

MORL-Baselines — это библиотека алгоритмов многоцелевого обучения с подкреплением (MORL).

Цель этого репозитория — содержать надежные реализации алгоритмов MORL в PyTorch.

🖥Code: https://github.com/lucasalegre/morl-baselines

🦾 Project: lucasalegre.github.io/morl-baselines

🖥Colab: https://colab.research.google.com/drive/1ByjuUp8-CJeh1giPOACqPGiglPxDnlSq?usp=sharing

📚Paper: https://arxiv.org/abs/2311.12495v1

🔗Dataset: https://paperswithcode.com/dataset/mo-gymnasium

@DevspПодписаться
​​🖼 One-Step Image Translation with Text-to-Image Models

Модели CycleGAN-Turbo и pix2pix-turbo могут выполнять различные задачи перевода изображения в изображение как для парных, так и для непарных настроек.

CycleGAN-Turbo превосходит существующие методы на основе GAN и диффузии, а pix2pix-Turbo находится на одном уровне с недавними работами, такими как ControlNet для Sketch2Photo и Edge2Image, но с одношаговым выводом.

▪️Paper: https://arxiv.org/abs/2403.12036
▪️Code: https://github.com/GaParmar/img2img-turbo
▪️Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch

@DevspПодписаться
​​📢 𝐕𝐨𝐢𝐜𝐞𝐂𝐫𝐚𝐟𝐭: Zero-Shot Speech Editing and Text-to-Speech in the Wild🪄

VoiceCraft — это языковая модель нейронного кодека, заполняющая токены, которая обеспечивает высочайшую производительность как при редактировании речи, так и при преобразовании текста в речь (TTS) с нулевым количеством кадров для реальных данных, включая аудиокниги, интернет-видео и подкасты.

Чтобы клонировать или редактировать невидимый голос, VoiceCraft требуется всего несколько секунд справки.

Github
Paper
Project

@DevspПодписаться
​​🪴 SceneScript: an AI model and method
to understand and describe 3D spaces

SceneScript — это метод представления и определения геометрии сцены
с использованием авторегрессионной структурированной языковой модели и сквозного обучения.

SceneScript использует тот же метод прогнозирования следующего токена, что и модели на большом языке. Это дает моделям ИИ словарный запас, необходимый для рассуждений о физических пространствах.

Paper
Project
Dataset

@DevspПодписаться
​​🔊 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Qwen-Audio — это мультимодальная версия большой серии моделей Qwen, предложенной Alibaba Cloud. Qwen-Audio принимает разнообразный звук (человеческую речь, естественный звук, музыку и песни) и текст в качестве входных данных и выводит текст.

🐱 Github: https://github.com/qwenlm/qwen-audio

🚀 Demo: https://qwen-audio.github.io/Qwen-Audio/

📕Paper: https://arxiv.org/abs/2311.07919v1

Dataset: https://paperswithcode.com/dataset/vocalsound

@DevspПодписаться
​​🏆 LLaMA2-Accessory: An Open-source Toolkit for LLM Development

LLaMA2-Accessory — это набор инструментов с открытым исходным кодом для предварительного обучения, точной настройки и развертывания моделей большого языка (LLM) и мультимодальных LLM.

🐱 Github: https://github.com/alpha-vllm/llama2-accessory

🚀 Demo: http://imagebind-llm.opengvlab.com/

📕Paper: https://arxiv.org/abs/2311.07575v1

Project: llama2-accessory.readthedocs.io/

Dataset: https://paperswithcode.com/dataset/vsr

@DevspПодписаться