Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🚀 Lumiere - это модель пространственно-временной диффузии от Google Research.

Lumiere — модель диффузии текста в видео, предназначенную для синтеза видеороликов, которые изображают реалистичное, разнообразное и связное движение.

Используя одно эталонное изображение, Lumiere может создавать видеоролики в нужном вам стиле, используя точно настроенные веса модели преобразования текста в изображение.

▪️Lumiere → https://lumiere-video.github.io/?utm_source=social
▪️Video: https://www.youtube.com/watch?v=wxLr02Dz2Sc&t=2s
▪️Paper: https://arxiv.org/abs/2401.12945

@DevspПодписаться
​​🔥Unbounded 3D City Generation🔥

CityDreamer — композиционная генеративная модель, разработанная специально для неограниченных трехмерных городов, которая разделяет генерацию экземпляров зданий от других фоновых объектов, таких как дороги, зеленые зоны и водные территории, в отдельные модули.

▪️ Project: https://infinitenoscript.com/project/city-dreamer/
▪️Code: https://github.com/hzxie/CityDreamer
▪️Demo: https://huggingface.co/spaces/hzxie/

@DevspПодписаться
ИЩЕМ Data Scientist/ ML Engineer в стартап из Кремниевой Долины.

https://www.gotit.life/


Занятость: Частичная
Формат работы: Удаленная

Требования:
🔹Опыт от 5 лет
🔹Опыт работы с LLM
🔹Знание GCP инфраструктуры
🔹Опыт коммерческой разработки
🔹Желателен опыт управления командой

 
Got it Life is an AI-powered self-care app that enhances the psychological resilience & productivity of enterprise employees through guided internal-external dialog & Psycholinguistic recognition system while saving employers money
 
Приложение позволяет юзеру говорить с самим собой как с другим человеком через смену ролей и изменение голоса. В результате юзер получает инсайты и новые идеи по решению своих внутренних трудностей и способы реализации этих идей в реальной жизни. Интеграция AI в приложение позволит увеличить качество текущего фкнуционала приложения и добавить новый.

Перспективы:
- Вхождения в команду на фултайм
- Возглавить направление
- Поездки/переезд в США

Больше деталей на интервью▶️

Отправляйте свои CV: @regina_sol
​​🗣 HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation by Hierarchical Variational Inference for Zero-shot Speech Synthesis

Синтез речи на основе больших языковых моделей (LLM) получил широкое распространение в синтезе речи.

Однако они требуют крупномасштабных данных и обладают теми же ограничениями, что и предыдущие модели авторегрессии речи, включая низкую скорость вывода и недостаточную надежность.

В этой статье предлагается HierSpeech++, быстрый и мощный синтезатор речи с нулевым выстрелом для преобразования текста в речь (TTS) и преобразования голоса (VC).

Данная модель синтеза речи позволяют значительно повысить надежность и выразительность синтетической речи.

🖥Code: https://github.com/sh-lee-prml/hierspeechpp

🦾 Checkpoint: https://drive.google.com/drive/folders/1-L_90BlCkbPyKWWHTUjt5Fsu3kz0du0w?usp=sharing

⚡️Demo: https://sh-lee-prml.github.io/HierSpeechpp-demo/

📚Paper: https://arxiv.org/abs/2311.12454v1

🔗Dataset: https://paperswithcode.com/dataset/libri-light

@DevspПодписаться
​​⚡️ DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing

Этот метод редактирования изображений, позволяет удалять объекты, менять местами предметы, перемещать их, изменять размер, добавлять и переворачивать несколько объектов, делать панорамы и масштабировать изображения, удалять объекты с изображений.

Благодаря модульным преимуществам, присущим таким многослойным представлениям, мы можем добиться точного редактирования изображений и демонстрируем, что наш подход постоянно превосходит новейшие методы пространственного редактирования, включая Self-Guidance и DiffEditor.

▪️Github: https://github.com/design-edit/DesignEdit.git
▪️Paper: https://arxiv.org/abs/2403.14487
▪️Project: https://design-edit.github.io/

@DevspПодписаться
​​🔵Differentiable and accelerated spherical transforms with JAX

S2FFT — это пакет Python для вычисления преобразований Фурье в сфере и группе вращения (Price & McEwen, 2023) с использованием JAX и PyTorch.

Он использует autodiff для обеспечения дифференцируемых преобразований, которые также можно развернуть на современных аппаратных ускорителях (например, графических процессорах и TPU).

Более конкретно, S2FFT обеспечивает поддержку сферических гармоник спина и преобразований Вигнера (как для реальных, так и для сложных сигналов), с поддержкой сопряженных преобразований, где это необходимо, и поставляется с различными оптимизациями (предварительным вычислением или без), которые можно выбрать в зависимости от доступных ресурсов и желаемого углового значения.

🖥Code: https://github.com/astro-informatics/s2fft

🦾 Project: https://astro-informatics.github.io/s2fft/

📚Paper: https://arxiv.org/abs/2311.14670v1

@DevspПодписаться
👀 Большой обзор методов ускорения инференса LLM

В этой статье ML-разработчик Яндекса подробно разобрал, какие факторы влияют на время работы модели и как они связаны с внутренним устройством GPU. Описал популярные методы в классах дистилляции и квантизации моделей. Также показал такие дополнительные техники, как Speculative Decoding и Continuous Batching.

✍️ Habr: https://habr.com/ru/companies/yandex/articles/801119/

@DevspПодписаться
«Яндекс» и факультет компьютерных наук НИУ ВШЭ расширят сотрудничество в сфере подготовки ИИ-специалистов в следующие 10 лет

Компания «Яндекс» и факультет компьютерных наук НИУ ВШЭ заявили о расширении партнёрства. ФКН был основан ВШЭ и Яндексом 10 лет назад. За время своего существования факультет стал одним из ведущих проектов по подготовке разработчиков и специалистов по машинному обучению и выпустил более 3000 человек. 

Расширение сотрудничества планируется по трём направлениям, включающим создание новых образовательных программ, развитие исследований в области искусственного интеллекта, применение генеративных нейросетей в учебном процессе.

Также в ближайшие 10 лет партнерства Яндекс и ФКН планируют увеличить количество выпускников программ Яндекса в 4 раза. Уже в этом году откроется магистратура по ИИ в маркетинге и продукте, а на магистерской программе «Современные компьютерные науки» появится направление по ИИ, которое будет готовить специалистов по генеративным технологиям. Кроме того, создадут свой студкемп по ML.
​​🔍 MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

MagicLens: серия моделей поиска изображений.

Обученная на 36,7 миллионах триплетов (изображение запроса, инструкция, целевое изображение) с богатыми семантическими связями, полученными из Интернета, одна модель MagicLens может достичь сопоставимых или лучших результатов по 10 тестам различных мультимодальности изображения, изображения к изображению и т. д. и задачи поиска текста в изображение, чем предыдущие современные методы (SOTA).

Кроме того, MagicLens может удовлетворить разнообразные цели поиска, выраженные с помощью открытых инструкций.

▪️Project: https://open-vision-language.github.io/MagicLens/
▪️Paper: https://arxiv.org/abs/2403.19651
▪️HF: https://huggingface.co/papers/2403.19651

@DevspПодписаться
​​🪄 Introducing SDXL Turbo: A Real-Time Text-to-Image Generation Model

SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.

SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.

Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.

🖥Code: https://stability.ai/news/stability-ai-sdxl-turbo

🦾 Demo: https://clipdrop.co/stable-diffusion-turbo

🔥Model weights https://huggingface.co/stabilityai/sdxl-turbo

📚Paper:https://stability.ai/research/adversarial-diffusion-distillation

@DevspПодписаться
Российский AI-ассистент разработчика доступен на GitVerse

AI-ассистенты (AI, artificial intelligence — искусственный интеллект) — это программы, которые анализируют код и предлагают варианты завершения в режиме онлайн. Разработчик может быстрее выполнять привычные задачи, избавиться от рутины сосредоточиться на важных проектах.

К одному из таких помощников вы можете получить доступ уже сейчас!
GigaCode – это AI-ассистент, который знает 15 языков программирования — Java, Python, TypeScript, C/C++ и другие. GigaCode работает в любой привычной среде разработки. Его можно подключить к IDEA, PyCharm, VSCode, Jupyter и другим.

GigaCode развивается вместе c сервисом GigaChat. В AI-ассистенте есть нейросетевые модели, которые обучены на больших корпусах исходного кода и специализируются на определенных задачах разработки. А по опыту команд в Сбере, GigaCode может сокращать время для создания кода до 25%. Ранний доступ к AI-ассистенту можно получить на площадке GitVerse. Это российская платформа для работы с исходным кодом от СберТеха, где можно хранить открытые и закрытые репозитории и продвигать свои проекты.

Чтобы получить доступ к GitVerse и протестировать GigaCode в своем проекте, оставьте заявку на сайте.
​​👱 Arc2Face: A Foundation Model of Human Faces

Arc2Face — модель основы лица с идентичностью, которая, учитывая встраивание человека в ArcFace, может генерировать разнообразные фотореалистичные изображения с беспрецедентной степенью сходства лиц, чем существующие модели.

Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.

▪️Github: https://github.com/foivospar/Arc2Face
▪️Project: https://arc2face.github.io
▪️Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
▪️Paper: https://arxiv.org/abs/2403.11641

@DevspПодписаться
​​🦖 DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video

DINO-Tracker — новая платформу для долгосрочного плотного отслеживания видео.

Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.

▪️Github: https://github.com/AssafSinger94/dino-tracker
▪️Project: https://dino-tracker.github.io/
▪️Paper: https://arxiv.org/abs/2403.14548

@DevspПодписаться
​​👱‍♂️ ChatAnything: Facetime Chat with LLM-Enhanced Personas

Новая модель ChatAnything, которая способна придать жизнь разнообразным объектам, будь то животное, фрукт, монстр или даже ваше собственное фото, создавая говорящего персонажа. При помощи нейронных сетей и алгоритмов текст в речь, программа автоматически выбирает наиболее подходящий тон и настроение для созданного персонажа.

Простой конвейер, дополненный безграничными на данный момент моделями большого языка, позволяющий создавать воображаемые чаты Facetime с заданным визуальным внешним видом.

🖥Github: https://github.com/zhoudaquan/ChatAnything

📕Paper: https://arxiv.org/abs/2311.06772

⭐️Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_noscripts/prepare_models.py

@DevspПодписаться
​​💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.

🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA

🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA

📕Paper: https://arxiv.org/abs/2311.10122v1

Dataset: https://paperswithcode.com/dataset/mmbench

@DevspПодписаться
​​🎥 Camera control for text-to-video.

CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.

Результаты экспериментов демонстрируют эффективность CameraCtrlв достижении точного и адаптируемого к предметной области управления камерой, что знаменует собой шаг вперед в стремлении к динамичному и индивидуальному видеоповествованию на основе текстовых данных и позы камеры.

▪️Github: https://github.com/hehao13/CameraCtrl
▪️Paper: http://arxiv.org/abs/2404.02101
▪️Project: https://hehao13.github.io/projects-CameraCtrl/
▪️Weightshttps://huggingface.co/hehao13/CameraCtrl/tree/main

@DevspПодписаться
​​🌦 Makani: Massively parallel training of machine-learning based weather and climate models

Makani — это экспериментальная библиотека, предназначенная для исследования и разработки моделей погоды и климата на основе машинного обучения в PyTorch.

Среди прочего, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.

🐱Github: https://github.com/NVIDIA/makani

📕Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/

Dataset: https://github.com/NVIDIA/makani/tree/main/datasets

@DevspПодписаться
Наводим порядок в данных с экспертами Х5 Tech Talk !🤟🏻

С каждым годом данных становится больше, а ориентироваться в них сложнее. X5 Tech совместно с сообществом dbt & modern data stack решили обсудить метод решения этой проблемы — каталог данных.

11 апреля предлагаем послушать про успешные внедрения последних лет открытых каталогов данных на базе OpenMetadata и DataHub с месячной аудиторией от десятков специалистов машинного обучения до тысяч бизнес пользователей.

🔔Не пропусти!
11 апреля, 19:00
ОНЛАЙН

Зарегистрироваться

Реклама. ООО "Корпоративный центр ИКС 5", ОГРН 1077760250941
​​JaxMARL

Бенчмарки играют важную роль в разработке алгоритмов машинного обучения. Например, исследования в области обучения с подкреплением (RL) в значительной степени зависят от них. Однако модели RL традиционно запускаются на центральном процессоре, что ограничивает их масштабируемость.

В данной работе представлен JaxMARL - первый проект с открытым исходным кодом, сочетающую простоту использования с эффективностью работы на GPU.

JaxMARL сочетает в себе простоту использования с эффективностью использования графического процессора и поддерживает широкий спектр часто используемых сред MARL, а также популярные базовые алгоритмы.

Обучающий конвейер на основе JAX работает в 12500 раз быстрее, чем существующие подходы.

🐱 Github: https://github.com/flairox/jaxmarl

📕Paper: https://arxiv.org/pdf/2311.10090v1.pdf

Dataset: https://paperswithcode.com/dataset/mujoco

@DevspПодписаться
​​🇺🇿 Introducing Emu Video and Emu Edit, our latest generative AI research milestones

Мета показали свои новые нейросети Emu Video и Emu Edit.

Первая — высококачественный генератор видео, а вот вторая интересней — это натоящий редактор ваших фото текстом, без выделения областей, сложных интерфейсов и прочего. Просто пишете, что хотите поменять и как, а нейросеть — выполняет. Демо выглядит потрясающе.

Технологии Emu лежат в основе многих наших возможностей генеративного искусственного интеллекта, некоторых инструментов редактирования изображений искусственного интеллекта для Instagram, которые позволяют делать фотографии и менять их визуальный стиль или фон, а также функции Imagine в Meta AI, которая позволяет создавать фотореалистичные изображения непосредственно в сообщениях с помощью этой технологии.

🚀 Blog: https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/

⭐️Project page: https://emu-edit.metademolab.com

📌Paper: https://emu-edit.metademolab.com/assets/emu_edit.pdf

@DevspПодписаться