Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🔵Differentiable and accelerated spherical transforms with JAX

S2FFT — это пакет Python для вычисления преобразований Фурье в сфере и группе вращения (Price & McEwen, 2023) с использованием JAX и PyTorch.

Он использует autodiff для обеспечения дифференцируемых преобразований, которые также можно развернуть на современных аппаратных ускорителях (например, графических процессорах и TPU).

Более конкретно, S2FFT обеспечивает поддержку сферических гармоник спина и преобразований Вигнера (как для реальных, так и для сложных сигналов), с поддержкой сопряженных преобразований, где это необходимо, и поставляется с различными оптимизациями (предварительным вычислением или без), которые можно выбрать в зависимости от доступных ресурсов и желаемого углового значения.

🖥Code: https://github.com/astro-informatics/s2fft

🦾 Project: https://astro-informatics.github.io/s2fft/

📚Paper: https://arxiv.org/abs/2311.14670v1

@DevspПодписаться
👀 Большой обзор методов ускорения инференса LLM

В этой статье ML-разработчик Яндекса подробно разобрал, какие факторы влияют на время работы модели и как они связаны с внутренним устройством GPU. Описал популярные методы в классах дистилляции и квантизации моделей. Также показал такие дополнительные техники, как Speculative Decoding и Continuous Batching.

✍️ Habr: https://habr.com/ru/companies/yandex/articles/801119/

@DevspПодписаться
«Яндекс» и факультет компьютерных наук НИУ ВШЭ расширят сотрудничество в сфере подготовки ИИ-специалистов в следующие 10 лет

Компания «Яндекс» и факультет компьютерных наук НИУ ВШЭ заявили о расширении партнёрства. ФКН был основан ВШЭ и Яндексом 10 лет назад. За время своего существования факультет стал одним из ведущих проектов по подготовке разработчиков и специалистов по машинному обучению и выпустил более 3000 человек. 

Расширение сотрудничества планируется по трём направлениям, включающим создание новых образовательных программ, развитие исследований в области искусственного интеллекта, применение генеративных нейросетей в учебном процессе.

Также в ближайшие 10 лет партнерства Яндекс и ФКН планируют увеличить количество выпускников программ Яндекса в 4 раза. Уже в этом году откроется магистратура по ИИ в маркетинге и продукте, а на магистерской программе «Современные компьютерные науки» появится направление по ИИ, которое будет готовить специалистов по генеративным технологиям. Кроме того, создадут свой студкемп по ML.
​​🔍 MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

MagicLens: серия моделей поиска изображений.

Обученная на 36,7 миллионах триплетов (изображение запроса, инструкция, целевое изображение) с богатыми семантическими связями, полученными из Интернета, одна модель MagicLens может достичь сопоставимых или лучших результатов по 10 тестам различных мультимодальности изображения, изображения к изображению и т. д. и задачи поиска текста в изображение, чем предыдущие современные методы (SOTA).

Кроме того, MagicLens может удовлетворить разнообразные цели поиска, выраженные с помощью открытых инструкций.

▪️Project: https://open-vision-language.github.io/MagicLens/
▪️Paper: https://arxiv.org/abs/2403.19651
▪️HF: https://huggingface.co/papers/2403.19651

@DevspПодписаться
​​🪄 Introducing SDXL Turbo: A Real-Time Text-to-Image Generation Model

SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.

SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.

Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.

🖥Code: https://stability.ai/news/stability-ai-sdxl-turbo

🦾 Demo: https://clipdrop.co/stable-diffusion-turbo

🔥Model weights https://huggingface.co/stabilityai/sdxl-turbo

📚Paper:https://stability.ai/research/adversarial-diffusion-distillation

@DevspПодписаться
Российский AI-ассистент разработчика доступен на GitVerse

AI-ассистенты (AI, artificial intelligence — искусственный интеллект) — это программы, которые анализируют код и предлагают варианты завершения в режиме онлайн. Разработчик может быстрее выполнять привычные задачи, избавиться от рутины сосредоточиться на важных проектах.

К одному из таких помощников вы можете получить доступ уже сейчас!
GigaCode – это AI-ассистент, который знает 15 языков программирования — Java, Python, TypeScript, C/C++ и другие. GigaCode работает в любой привычной среде разработки. Его можно подключить к IDEA, PyCharm, VSCode, Jupyter и другим.

GigaCode развивается вместе c сервисом GigaChat. В AI-ассистенте есть нейросетевые модели, которые обучены на больших корпусах исходного кода и специализируются на определенных задачах разработки. А по опыту команд в Сбере, GigaCode может сокращать время для создания кода до 25%. Ранний доступ к AI-ассистенту можно получить на площадке GitVerse. Это российская платформа для работы с исходным кодом от СберТеха, где можно хранить открытые и закрытые репозитории и продвигать свои проекты.

Чтобы получить доступ к GitVerse и протестировать GigaCode в своем проекте, оставьте заявку на сайте.
​​👱 Arc2Face: A Foundation Model of Human Faces

Arc2Face — модель основы лица с идентичностью, которая, учитывая встраивание человека в ArcFace, может генерировать разнообразные фотореалистичные изображения с беспрецедентной степенью сходства лиц, чем существующие модели.

Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.

▪️Github: https://github.com/foivospar/Arc2Face
▪️Project: https://arc2face.github.io
▪️Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
▪️Paper: https://arxiv.org/abs/2403.11641

@DevspПодписаться
​​🦖 DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video

DINO-Tracker — новая платформу для долгосрочного плотного отслеживания видео.

Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.

▪️Github: https://github.com/AssafSinger94/dino-tracker
▪️Project: https://dino-tracker.github.io/
▪️Paper: https://arxiv.org/abs/2403.14548

@DevspПодписаться
​​👱‍♂️ ChatAnything: Facetime Chat with LLM-Enhanced Personas

Новая модель ChatAnything, которая способна придать жизнь разнообразным объектам, будь то животное, фрукт, монстр или даже ваше собственное фото, создавая говорящего персонажа. При помощи нейронных сетей и алгоритмов текст в речь, программа автоматически выбирает наиболее подходящий тон и настроение для созданного персонажа.

Простой конвейер, дополненный безграничными на данный момент моделями большого языка, позволяющий создавать воображаемые чаты Facetime с заданным визуальным внешним видом.

🖥Github: https://github.com/zhoudaquan/ChatAnything

📕Paper: https://arxiv.org/abs/2311.06772

⭐️Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_noscripts/prepare_models.py

@DevspПодписаться
​​💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.

🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA

🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA

📕Paper: https://arxiv.org/abs/2311.10122v1

Dataset: https://paperswithcode.com/dataset/mmbench

@DevspПодписаться
​​🎥 Camera control for text-to-video.

CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.

Результаты экспериментов демонстрируют эффективность CameraCtrlв достижении точного и адаптируемого к предметной области управления камерой, что знаменует собой шаг вперед в стремлении к динамичному и индивидуальному видеоповествованию на основе текстовых данных и позы камеры.

▪️Github: https://github.com/hehao13/CameraCtrl
▪️Paper: http://arxiv.org/abs/2404.02101
▪️Project: https://hehao13.github.io/projects-CameraCtrl/
▪️Weightshttps://huggingface.co/hehao13/CameraCtrl/tree/main

@DevspПодписаться
​​🌦 Makani: Massively parallel training of machine-learning based weather and climate models

Makani — это экспериментальная библиотека, предназначенная для исследования и разработки моделей погоды и климата на основе машинного обучения в PyTorch.

Среди прочего, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.

🐱Github: https://github.com/NVIDIA/makani

📕Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/

Dataset: https://github.com/NVIDIA/makani/tree/main/datasets

@DevspПодписаться
Наводим порядок в данных с экспертами Х5 Tech Talk !🤟🏻

С каждым годом данных становится больше, а ориентироваться в них сложнее. X5 Tech совместно с сообществом dbt & modern data stack решили обсудить метод решения этой проблемы — каталог данных.

11 апреля предлагаем послушать про успешные внедрения последних лет открытых каталогов данных на базе OpenMetadata и DataHub с месячной аудиторией от десятков специалистов машинного обучения до тысяч бизнес пользователей.

🔔Не пропусти!
11 апреля, 19:00
ОНЛАЙН

Зарегистрироваться

Реклама. ООО "Корпоративный центр ИКС 5", ОГРН 1077760250941
​​JaxMARL

Бенчмарки играют важную роль в разработке алгоритмов машинного обучения. Например, исследования в области обучения с подкреплением (RL) в значительной степени зависят от них. Однако модели RL традиционно запускаются на центральном процессоре, что ограничивает их масштабируемость.

В данной работе представлен JaxMARL - первый проект с открытым исходным кодом, сочетающую простоту использования с эффективностью работы на GPU.

JaxMARL сочетает в себе простоту использования с эффективностью использования графического процессора и поддерживает широкий спектр часто используемых сред MARL, а также популярные базовые алгоритмы.

Обучающий конвейер на основе JAX работает в 12500 раз быстрее, чем существующие подходы.

🐱 Github: https://github.com/flairox/jaxmarl

📕Paper: https://arxiv.org/pdf/2311.10090v1.pdf

Dataset: https://paperswithcode.com/dataset/mujoco

@DevspПодписаться
​​🇺🇿 Introducing Emu Video and Emu Edit, our latest generative AI research milestones

Мета показали свои новые нейросети Emu Video и Emu Edit.

Первая — высококачественный генератор видео, а вот вторая интересней — это натоящий редактор ваших фото текстом, без выделения областей, сложных интерфейсов и прочего. Просто пишете, что хотите поменять и как, а нейросеть — выполняет. Демо выглядит потрясающе.

Технологии Emu лежат в основе многих наших возможностей генеративного искусственного интеллекта, некоторых инструментов редактирования изображений искусственного интеллекта для Instagram, которые позволяют делать фотографии и менять их визуальный стиль или фон, а также функции Imagine в Meta AI, которая позволяет создавать фотореалистичные изображения непосредственно в сообщениях с помощью этой технологии.

🚀 Blog: https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/

⭐️Project page: https://emu-edit.metademolab.com

📌Paper: https://emu-edit.metademolab.com/assets/emu_edit.pdf

@DevspПодписаться
​​👾Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding

Chat-UniVi - унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления.

Мы используем набор динамических визуальных токенов для единообразного представления изображений и видео. Эта структура представления позволяет модели эффективно использовать ограниченное количество визуальных токенов для одновременного захвата пространственных деталей, необходимых для изображений , и комплексных временных отношений, необходимых для видео.

Chat-UniVi обучается на смешанном наборе данных, содержащем как изображения, так и видео, что позволяет напрямую применять его к задачам, включающим оба носителя, без каких-либо модификаций.

Обширные экспериментальные результаты показывают, что Chat-UniVi, как унифицированная модель, постоянно превосходит даже существующие методы, предназначенные исключительно для изображений или видео.

🐱 Github: https://github.com/pku-yuangroup/chat-univi

📕Paper: https://arxiv.org/abs/2311.08046v1

Dataset: https://paperswithcode.com/dataset/activitynet-qa

@DevspПодписаться
1
​​ Feature Selection for Deep Tabular Models

Основанный на входном градиенте аналог LASSO для нейронных сетей, называемый Deep Lasso, превосходит классические методы выбора признаков при решении сложных задач, таких как выбор из поврежденных признаков или признаков второго порядка.

🐱 Github: https://github.com/vcherepanova/tabular-feature-selection

📕Paper: https://arxiv.org/pdf/2311.05877v1.pdf

Tasks: https://paperswithcode.com/task/feature-selection

@DevspПодписаться
​​🏆 MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

Большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео.

Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.

▪️proj: https://boheumd.github.io/MA-LMM/
▪️repo: https://github.com/boheumd/MA-LMM
▪️abs: https://arxiv.org/abs/2404.05726

@DevspПодписаться
​​⚡️ MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео.

Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео.

MiniGPT4-видео учитывает не только визуальный контент, но и текстовые диалоги, что позволяет модели эффективно отвечать на запросы, включающие как визуальные, так и текстовые компоненты.

Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.

▪️code: https://github.com/Vision-CAIR/MiniGPT4-video
▪️page: https://vision-cair.github.io/MiniGPT4-video/
▪️paper: https://arxiv.org/abs/2404.03413
▪️jupyter: https://github.com/camenduru/MiniGPT4-video-jupyter

@DevspПодписаться
​​🌟 Open-Sora-Plan v1.0.0, which significantly enhances video generation quality and text control capabilities.

Open-Sora-Plan версии 1.0.0 - модель генерации, которая может генерировать 10-секундное видео с разрешением 1024 × 1024 со скоростью 24 кадра в секунду.

Этот проект направлен на создание простого и масштабируемого репозитория для воспроизведения Sora.

▪️Github

@DevspПодписаться