Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
633 photos
38 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🥳DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

В этой работе мы представляем DiffMorpher, первый подход, обеспечивающий плавную и естественную интерполяцию изображений с использованием моделей диффузии. Наша ключевая идея состоит в том, чтобы уловить семантику двух изображений, подобрав к ним два LoRA соответственно, и интерполировать как параметры LoRA, так и скрытые шумы, чтобы обеспечить плавный семантический переход, при котором соответствие автоматически возникает без необходимости аннотации.

🖥Code: https://github.com/Kevin-thu/DiffMorpher

🧪OpenXLab: https://openxlab.org.cn/apps/detail/KaiwenZhang/DiffMorpher

🎓Colab: https://github.com/camenduru/DiffMorpher-colab

🔮Project Page: https://kevin-thu.github.io/DiffMorpher_page

📚ArXiv: https://arxiv.org/abs/2312.07409

@DevspПодписаться
​​🎃FreeInit : Bridging Initialization Gap in Video Diffusion Models

В этой статье мы углубимся в инициализацию шума в моделях видеодиффузии и обнаружим неявный разрыв между обучением и выводом, который связан с падением качества вывода.

🖥colab: https://github.com/camenduru/FreeInit-colab

🔮page: https://tianxingwu.github.io/pages/FreeInit/

📚paper: https://arxiv.org/abs/2312.07537

🥩code: https://github.com/TianxingWu/FreeInit

@DevspПодписаться
​​🧠EasyVolcap: Accelerating Neural Volumetric Video Research

Neural Radiance Fields (NeRF) — это метод синтеза новых видов сложных сцен путем оптимизации базовой функции непрерывной объемной сцены с использованием разреженного набора входных представлений.

🖥Code: https://github.com/zju3dv/easyvolcap

🖌Metrics: https://short.llm360.ai/amber-metrics

📚Paper: https://arxiv.org/abs/2312.06575v1

⚡️ Dataset: https://paperswithcode.com/dataset/nerf

@DevspПодписаться
​​🧠EasyVolcap: Accelerating Neural Volumetric Video Research

Neural Radiance Fields (NeRF) — это метод синтеза новых видов сложных сцен путем оптимизации базовой функции непрерывной объемной сцены с использованием разреженного набора входных представлений.

🖥Code: https://github.com/zju3dv/easyvolcap

🖌Metrics: https://short.llm360.ai/amber-metrics

📚Paper: https://arxiv.org/abs/2312.06575v1

⚡️ Dataset: https://paperswithcode.com/dataset/nerf

@DevspПодписаться
​​👾PDD: Positional Discourse Divergence

PDD — это новая автоматическая метрика, предназначенная для количественной оценки расхождения в дискурсе между двумя длинными статьями. Он разделяет предложения статьи на несколько ячеек позиций и вычисляет расхождение в структурах дискурса внутри каждой ячейки.

🖥Github: https://github.com/williamlyh/pos_div_metric

📕Paper: https://arxiv.org/pdf/2402.10175v1.pdf

🔥Dataset: https://paperswithcode.com/dataset/recipe1m-1

Tasks: https://paperswithcode.com/task/coherence-evaluation

@DevspПодписаться
​​🎛 TIA Toolbox

TIAToolbox — это набор инструментов для вычислительной патологии, разработанный TIA Center, который предоставляет комплексный API для анализа изображений патологии с использованием лучших практик. Он основан на PyTorch , популярной платформе глубокого обучения, которая обеспечивает эффективную и гибкую реализацию самых современных алгоритмов. TIAToolbox поддерживает множество функций через интерфейс командной строки и может интегрироваться со стандартными модулями PyTorch. Он также предлагает инструменты для загрузки данных, предварительной обработки, вывода модели, постобработки и визуализации.

🖥Github: https://github.com/tissueimageanalytics/tiatoolbox

📕Paper: https://arxiv.org/pdf/2402.09990v1.pdf

Tasks: https://paperswithcode.com/task/whole-slide-images

@DevspПодписаться
​​🗣 EasyKV

EasyKV — это пакет Pytorch, предназначенный для вывода генеративной языковой модели с ограничением кэша ключей.

🖥Github: https://github.com/drsy/easykv

📕Paper: https://arxiv.org/pdf/2402.06262v1.pdf

🔥Datasets: https://paperswithcode.com/dataset/webtext

@DevspПодписаться
​​🧐Enhancing Video Super-Resolution via Implicit Resampling-based Alignment

Video Super-Resolution — это задача компьютерного зрения, целью которой является увеличение разрешения видеопоследовательности, обычно от более низкого разрешения к более высокому. Цель состоит в том, чтобы генерировать видеокадры с высоким разрешением из входных данных с низким разрешением, улучшая общее качество видео.

🖥Github: https://github.com/kai422/iart

📕Paper: https://github.com/kai422/IART/blob/main/arxiv.pdf

🔥Datasets: https://paperswithcode.com/task/video-super-resolution

@DevspПодписаться
​​🧮 OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

OpenMathInstruct-1 — это набор данных для настройки математических инструкций, содержащий 1,8 миллиона пар «задача-решение», созданный с использованием лицензированной модели Mixtral-8x7B.

Dataset: https://huggingface.co/datasets/nvidia/OpenMathInstruct-1

Paper: https://huggingface.co/papers/2402.10176

@DevspПодписаться
​​⭐️ComfyUI-3D-Pack

Обширный набор узлов, который позволяет ComfyUI обрабатывать 3D-входы (сетки и UV-текстуры и т. д.) с использованием передовых алгоритмов (3DGS, NeRF и т. д.).

ComfyUI-3D-Pack: https://github.com/MrForExample/ComfyUI-3D-Pack

TGS: https://github.com/VAST-AI-Research/TriplaneGaussian

@DevspПодписаться
​​⚡️ MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

MotionCtrl может независимо управлять сложным движением камеры и движением объектов в созданных видео, используя только унифицированную модель.

🖥Code: https://github.com/TencentARC/MotionCtrl

🎓Colab: https://github.com/camenduru/MotionCtrl-colab

🔮Project Page: https://openxlab.org.cn/apps/detail/camenduru/MotionCtrl

📚ArXiv: https://arxiv.org/abs/2312.03641

@DevspПодписаться
​​🧐FIND: Interface Foundation Models' Embeddings

FIND может встраивать DD в модели IN- интерфейса Foundation в чередующееся общее пространство внедрения.

🖥Code: https://github.com/UX-Decoder/FIND

🎓Demo: http://find.xyzou.net/

🔮Project Page: https://x-decoder-vl.github.io

🥩Demo: http://find.xyzou.net

📚ArXiv: https://arxiv.org/pdf/2312.07532.pdf

@DevspПодписаться
This media is not supported in your browser
VIEW IN TELEGRAM
😂 Когда реально понял что такое скорость

@DevspПодписаться
​​📽 Модель YandexGPT, которая пересказывает видео

В этой статье специалисты Яндекса рассказали, как внедрили в Браузер пересказ видео любой длины от нейросети. В материале привели полный пайплайн решения, рассказали о реализации с технической и с точки зрения UX продукта и разобрали причины, почему модель YandexGPT, заточенная под суммаризацию статей, не подходит для пересказа видео.

✍️ Habr: https://habr.com/ru/companies/yandex/articles/795397/

@DevspПодписаться
​​🔊Amphion: An Open-Source Audio, Music, and Speech Generation Toolkit

Amphion — набор инструментов для создания аудио, музыки и речи. Его цель — поддержать воспроизводимые исследования и помочь младшим исследователям и инженерам начать работу в области исследований и разработок в области аудио, музыки и генерации речи. Amphion предлагает уникальную функцию: визуализацию классических моделей или архитектур.

🖥GitHub: https://github.com/open-mmlab/Amphion

📚Paper: arxiv.org/abs/2312.09911

🥩HF: https://huggingface.co/amphion

@DevspПодписаться
​​⚡️ UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models Colab 🥳

UDiffText: Единая платформа для высококачественной генерации текста на изображениях с помощью моделей диффузии.

🖥code: https://github.com/ZYM-PKU/UDiffText

⚡️page: https://udifftext.github.io

📚paper: https://arxiv.org/abs/2312.04884

🔥colab: https://github.com/camenduru/UDiffText-colab

@DevspПодписаться
​​📈 PromptBench: A Unified Library for Evaluating and Understanding Large Language Models.

PromptBench - это основанный на Pytorch пакет Python для оценки больших языковых моделей (LLM). Он предоставляет удобные API для исследователей, чтобы проводить оценку LLM.

🖥Code: https://github.com/microsoft/promptbench

🌟Docs: https://promptbench.readthedocs.io/en/latest/

📚Paper: https://arxiv.org/abs/2312.07910v1

⚡️Dataset: https://paperswithcode.com/dataset/mmlu

@DevspПодписаться
​​🥇 TokenCompose, a text-to-image latent diffusion model trained with fine-grained grounding objectives

TokenCompose, модель латентной диффузии текста в изображение, которая достигает высокого фотореализма.

🖥Code: https://github.com/mlpc-ucsd/TokenCompose

🏆Website: https://mlpc-ucsd.github.io/TokenCompose/

📚Paper: https://huggingface.co/papers/2312.03626

@DevspПодписаться
​​🪄 MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

MagicAnimate стремится анимировать эталонное изображение, придерживаясь последовательностей движений с временной согласованностью.

🖥Github: https://github.com/magic-research/magic-animate

🔥HF: https://huggingface.co/spaces/zcxu-eric/magicanimate

📚Paper: arxiv.org/abs/2311.16498

🌟 Colab: https://colab.research.google.com/github/camenduru/MagicAnimate-colab/blob/main/MagicAnimate_colab.ipynb

🥩Page: https://showlab.github.io/magicanimate/

@DevspПодписаться
​​🚀 ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

Новый фреймворк предназначенный для диффузионных моделей (например, SD) для создания изображений с любым разрешением и соотношением сторон. В отличие от других методов генерации с заданным разрешениями, которые обрабатывают изображения с последующей обработкой, ResAdapter напрямую генерирует изображения с заданным разрешением.

page: https://res-adapter.github.io
paper: https://arxiv.org/abs/2403.02084
code: https://github.com/bytedance/res-adapter

@DevspПодписаться