Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🌊 LaVague: automate automation with Large Action Model framework

LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.

Github: https://github.com/lavague-ai/LaVague
Docs: https://docs.lavague.ai/en/latest/docs/
Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb

@DevspПодписаться
​​☕️ Latte: Latent Diffusion Transformer for Video Generation

Новый трансформер скрытой диффузии Latte, для генерации видео.

Latte сначала извлекает пространственно-временные маркеры из входных видео, а затем использует серию блоков-трансформеров для генерации видео в скрытом пространстве.

Latte дает ценную информацию для будущих исследований по включению Трансформеров в модели диффузии для генерации видео.

▪️Github
▪️Project
▪️Paper

@DevspПодписаться
🔥 YandexGPT 3: новая линейка больших языковых моделей третьего поколения

На сайте Yandex Cloud уже появилась первая нейросеть из линейки — YandexGPT 3 Pro, её работу можно оценить в демо-версии. Особенность этой модели: её можно дообучить под нужды бизнеса через сервис ML-разработки Yandex DataSphere. А затем встроить дообучившуюся технологию в свои продукты через API.

Обновленная модель лучше работает со сложными промтами, умеет представлять данные в формате JSON (JavaScript Object Notation) и особенно хорошо проявляет себя в таких сферах, как клиентская поддержка, онлайн-продажи, цифровые коммуникации, маркетинг, реклама и управление персоналом.

@DevspПодписаться
​​Stability AI is releasing Stable Video Diffusion! 🔥

Stable Video Diffusion — базовая модель для генеративного видео, основанную на модели изображения Stable Diffusion.

Это новая модель преобразования изображения в видео, которая позволяет получить 14-25 кадров с разрешением 576x1024 при наличии контекстного кадра такого же размера.

🖥Code: https://github.com/Stability-AI/generative-models

🦾 Announcement: https://stability.ai/news/stable-video-diffusion-open-ai-video-model

📚Paper: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

🔗Weights: https://github.com/Stability-AI/generative-models

@DevspПодписаться
​​⚡️ DBRX, a groundbreaking open-source Large Language Model (LLM) with a staggering 132 billion parameters.

DBRX — это большая языковая модель, обученная Databricks и доступная по открытой лицензии.

Этот репозиторий содержит минимальный код и примеры для выполнения вывода, а также коллекцию ресурсов и ссылок для использования DBRX.

▪️Github: https://github.com/databricks/dbrx
▪️HF: https://huggingface.co/databricks/dbrx-base
▪️Demo: https://huggingface.co/spaces/databricks/dbrx-instruct
▪️Docs: https://docs.databricks.com/en/machine-learning/foundation-models/index.html

@DevspПодписаться
​​🚀 Lumiere - это модель пространственно-временной диффузии от Google Research.

Lumiere — модель диффузии текста в видео, предназначенную для синтеза видеороликов, которые изображают реалистичное, разнообразное и связное движение.

Используя одно эталонное изображение, Lumiere может создавать видеоролики в нужном вам стиле, используя точно настроенные веса модели преобразования текста в изображение.

▪️Lumiere → https://lumiere-video.github.io/?utm_source=social
▪️Video: https://www.youtube.com/watch?v=wxLr02Dz2Sc&t=2s
▪️Paper: https://arxiv.org/abs/2401.12945

@DevspПодписаться
​​🔥Unbounded 3D City Generation🔥

CityDreamer — композиционная генеративная модель, разработанная специально для неограниченных трехмерных городов, которая разделяет генерацию экземпляров зданий от других фоновых объектов, таких как дороги, зеленые зоны и водные территории, в отдельные модули.

▪️ Project: https://infinitenoscript.com/project/city-dreamer/
▪️Code: https://github.com/hzxie/CityDreamer
▪️Demo: https://huggingface.co/spaces/hzxie/

@DevspПодписаться
ИЩЕМ Data Scientist/ ML Engineer в стартап из Кремниевой Долины.

https://www.gotit.life/


Занятость: Частичная
Формат работы: Удаленная

Требования:
🔹Опыт от 5 лет
🔹Опыт работы с LLM
🔹Знание GCP инфраструктуры
🔹Опыт коммерческой разработки
🔹Желателен опыт управления командой

 
Got it Life is an AI-powered self-care app that enhances the psychological resilience & productivity of enterprise employees through guided internal-external dialog & Psycholinguistic recognition system while saving employers money
 
Приложение позволяет юзеру говорить с самим собой как с другим человеком через смену ролей и изменение голоса. В результате юзер получает инсайты и новые идеи по решению своих внутренних трудностей и способы реализации этих идей в реальной жизни. Интеграция AI в приложение позволит увеличить качество текущего фкнуционала приложения и добавить новый.

Перспективы:
- Вхождения в команду на фултайм
- Возглавить направление
- Поездки/переезд в США

Больше деталей на интервью▶️

Отправляйте свои CV: @regina_sol
​​🗣 HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation by Hierarchical Variational Inference for Zero-shot Speech Synthesis

Синтез речи на основе больших языковых моделей (LLM) получил широкое распространение в синтезе речи.

Однако они требуют крупномасштабных данных и обладают теми же ограничениями, что и предыдущие модели авторегрессии речи, включая низкую скорость вывода и недостаточную надежность.

В этой статье предлагается HierSpeech++, быстрый и мощный синтезатор речи с нулевым выстрелом для преобразования текста в речь (TTS) и преобразования голоса (VC).

Данная модель синтеза речи позволяют значительно повысить надежность и выразительность синтетической речи.

🖥Code: https://github.com/sh-lee-prml/hierspeechpp

🦾 Checkpoint: https://drive.google.com/drive/folders/1-L_90BlCkbPyKWWHTUjt5Fsu3kz0du0w?usp=sharing

⚡️Demo: https://sh-lee-prml.github.io/HierSpeechpp-demo/

📚Paper: https://arxiv.org/abs/2311.12454v1

🔗Dataset: https://paperswithcode.com/dataset/libri-light

@DevspПодписаться
​​⚡️ DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing

Этот метод редактирования изображений, позволяет удалять объекты, менять местами предметы, перемещать их, изменять размер, добавлять и переворачивать несколько объектов, делать панорамы и масштабировать изображения, удалять объекты с изображений.

Благодаря модульным преимуществам, присущим таким многослойным представлениям, мы можем добиться точного редактирования изображений и демонстрируем, что наш подход постоянно превосходит новейшие методы пространственного редактирования, включая Self-Guidance и DiffEditor.

▪️Github: https://github.com/design-edit/DesignEdit.git
▪️Paper: https://arxiv.org/abs/2403.14487
▪️Project: https://design-edit.github.io/

@DevspПодписаться
​​🔵Differentiable and accelerated spherical transforms with JAX

S2FFT — это пакет Python для вычисления преобразований Фурье в сфере и группе вращения (Price & McEwen, 2023) с использованием JAX и PyTorch.

Он использует autodiff для обеспечения дифференцируемых преобразований, которые также можно развернуть на современных аппаратных ускорителях (например, графических процессорах и TPU).

Более конкретно, S2FFT обеспечивает поддержку сферических гармоник спина и преобразований Вигнера (как для реальных, так и для сложных сигналов), с поддержкой сопряженных преобразований, где это необходимо, и поставляется с различными оптимизациями (предварительным вычислением или без), которые можно выбрать в зависимости от доступных ресурсов и желаемого углового значения.

🖥Code: https://github.com/astro-informatics/s2fft

🦾 Project: https://astro-informatics.github.io/s2fft/

📚Paper: https://arxiv.org/abs/2311.14670v1

@DevspПодписаться
👀 Большой обзор методов ускорения инференса LLM

В этой статье ML-разработчик Яндекса подробно разобрал, какие факторы влияют на время работы модели и как они связаны с внутренним устройством GPU. Описал популярные методы в классах дистилляции и квантизации моделей. Также показал такие дополнительные техники, как Speculative Decoding и Continuous Batching.

✍️ Habr: https://habr.com/ru/companies/yandex/articles/801119/

@DevspПодписаться
«Яндекс» и факультет компьютерных наук НИУ ВШЭ расширят сотрудничество в сфере подготовки ИИ-специалистов в следующие 10 лет

Компания «Яндекс» и факультет компьютерных наук НИУ ВШЭ заявили о расширении партнёрства. ФКН был основан ВШЭ и Яндексом 10 лет назад. За время своего существования факультет стал одним из ведущих проектов по подготовке разработчиков и специалистов по машинному обучению и выпустил более 3000 человек. 

Расширение сотрудничества планируется по трём направлениям, включающим создание новых образовательных программ, развитие исследований в области искусственного интеллекта, применение генеративных нейросетей в учебном процессе.

Также в ближайшие 10 лет партнерства Яндекс и ФКН планируют увеличить количество выпускников программ Яндекса в 4 раза. Уже в этом году откроется магистратура по ИИ в маркетинге и продукте, а на магистерской программе «Современные компьютерные науки» появится направление по ИИ, которое будет готовить специалистов по генеративным технологиям. Кроме того, создадут свой студкемп по ML.
​​🔍 MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

MagicLens: серия моделей поиска изображений.

Обученная на 36,7 миллионах триплетов (изображение запроса, инструкция, целевое изображение) с богатыми семантическими связями, полученными из Интернета, одна модель MagicLens может достичь сопоставимых или лучших результатов по 10 тестам различных мультимодальности изображения, изображения к изображению и т. д. и задачи поиска текста в изображение, чем предыдущие современные методы (SOTA).

Кроме того, MagicLens может удовлетворить разнообразные цели поиска, выраженные с помощью открытых инструкций.

▪️Project: https://open-vision-language.github.io/MagicLens/
▪️Paper: https://arxiv.org/abs/2403.19651
▪️HF: https://huggingface.co/papers/2403.19651

@DevspПодписаться
​​🪄 Introducing SDXL Turbo: A Real-Time Text-to-Image Generation Model

SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.

SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.

Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.

🖥Code: https://stability.ai/news/stability-ai-sdxl-turbo

🦾 Demo: https://clipdrop.co/stable-diffusion-turbo

🔥Model weights https://huggingface.co/stabilityai/sdxl-turbo

📚Paper:https://stability.ai/research/adversarial-diffusion-distillation

@DevspПодписаться
Российский AI-ассистент разработчика доступен на GitVerse

AI-ассистенты (AI, artificial intelligence — искусственный интеллект) — это программы, которые анализируют код и предлагают варианты завершения в режиме онлайн. Разработчик может быстрее выполнять привычные задачи, избавиться от рутины сосредоточиться на важных проектах.

К одному из таких помощников вы можете получить доступ уже сейчас!
GigaCode – это AI-ассистент, который знает 15 языков программирования — Java, Python, TypeScript, C/C++ и другие. GigaCode работает в любой привычной среде разработки. Его можно подключить к IDEA, PyCharm, VSCode, Jupyter и другим.

GigaCode развивается вместе c сервисом GigaChat. В AI-ассистенте есть нейросетевые модели, которые обучены на больших корпусах исходного кода и специализируются на определенных задачах разработки. А по опыту команд в Сбере, GigaCode может сокращать время для создания кода до 25%. Ранний доступ к AI-ассистенту можно получить на площадке GitVerse. Это российская платформа для работы с исходным кодом от СберТеха, где можно хранить открытые и закрытые репозитории и продвигать свои проекты.

Чтобы получить доступ к GitVerse и протестировать GigaCode в своем проекте, оставьте заявку на сайте.
​​👱 Arc2Face: A Foundation Model of Human Faces

Arc2Face — модель основы лица с идентичностью, которая, учитывая встраивание человека в ArcFace, может генерировать разнообразные фотореалистичные изображения с беспрецедентной степенью сходства лиц, чем существующие модели.

Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.

▪️Github: https://github.com/foivospar/Arc2Face
▪️Project: https://arc2face.github.io
▪️Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
▪️Paper: https://arxiv.org/abs/2403.11641

@DevspПодписаться
​​🦖 DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video

DINO-Tracker — новая платформу для долгосрочного плотного отслеживания видео.

Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.

▪️Github: https://github.com/AssafSinger94/dino-tracker
▪️Project: https://dino-tracker.github.io/
▪️Paper: https://arxiv.org/abs/2403.14548

@DevspПодписаться
​​👱‍♂️ ChatAnything: Facetime Chat with LLM-Enhanced Personas

Новая модель ChatAnything, которая способна придать жизнь разнообразным объектам, будь то животное, фрукт, монстр или даже ваше собственное фото, создавая говорящего персонажа. При помощи нейронных сетей и алгоритмов текст в речь, программа автоматически выбирает наиболее подходящий тон и настроение для созданного персонажа.

Простой конвейер, дополненный безграничными на данный момент моделями большого языка, позволяющий создавать воображаемые чаты Facetime с заданным визуальным внешним видом.

🖥Github: https://github.com/zhoudaquan/ChatAnything

📕Paper: https://arxiv.org/abs/2311.06772

⭐️Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_noscripts/prepare_models.py

@DevspПодписаться
​​💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.

🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA

🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA

📕Paper: https://arxiv.org/abs/2311.10122v1

Dataset: https://paperswithcode.com/dataset/mmbench

@DevspПодписаться