Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🏆 LLaMA2-Accessory: An Open-source Toolkit for LLM Development

LLaMA2-Accessory — это набор инструментов с открытым исходным кодом для предварительного обучения, точной настройки и развертывания моделей большого языка (LLM) и мультимодальных LLM.

🐱 Github: https://github.com/alpha-vllm/llama2-accessory

🚀 Demo: http://imagebind-llm.opengvlab.com/

📕Paper: https://arxiv.org/abs/2311.07575v1

Project: llama2-accessory.readthedocs.io/

Dataset: https://paperswithcode.com/dataset/vsr

@DevspПодписаться
​​🎧Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model

Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.

Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.

🖥 Github: https://github.com/amaai-lab/video2music

📕Paper: https://arxiv.org/abs/2311.00968v1

Demo: https://llmrec.github.io/

🌐 Dataset: https://zenodo.org/records/10057093

@DevspПодписаться
This media is not supported in your browser
VIEW IN TELEGRAM
😁Когда тебя завлекают на роботу программистом)

@DevspПодписаться
​​🧬 Evolving New Foundation Models: Unleashing the Power of Automating Model Development

Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.

Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.

Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!

Blog: https://sakana.ai/evolutionary-model-merge/
Paper: https://arxiv.org/abs/2403.13187

@DevspПодписаться
​​🖼 One-Step Image Translation with Text-to-Image Models

CycleGAN-Turbo — общий метод адаптации одношаговой диффузионной модели, такой как SD-Turbo, к новым задачам и областям посредством состязательного обучения.

Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.

Paper: https://arxiv.org/abs/2403.12036
Code: https://github.com/GaParmar/img2img-turbo
Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch

@DevspПодписаться
​​🎓 OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Автономное взаимодействие с компьютером уже давно является проблемой с огромным потенциалом, а недавнее распространение больших языковых моделей (LLM) заметно ускорило прогресс в создании цифровых агентов.

Однако большинство этих агентов предназначены для взаимодействия с узкой областью, например с конкретным программным обеспечением или веб-сайтом.

OS-Copilot - это новаторская основа для создания универсальных компьютерных агентов, которая обеспечивает единый интерфейс для взаимодействия приложений в экосистеме ОС.

Самосовершенствующийся помощник с искусственным интеллектом, способного решать общие компьютерные задачи.

Агент может взаимодействовать со всеми элементами операционной системы (ОС), включая работу в сети, написание кода, работу с файлами и мультимедиа, работу различными сторонними приложениями.

▪️Github
▪️Project
▪️Статья

@DevspПодписаться
​​🐬 ShareGPT4V:Improving Large Multi-Modal Models with Better Captions

В сфере больших мультимодальных моделей (LMM) эффективное согласование модальностей имеет решающее значение, но часто ограничивается нехваткой высококачественных данных изображения и текста.

Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.

ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.

🖥Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

🦾 Project: https://sharegpt4v.github.io/

⚡️Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

📚Paper: https://arxiv.org/pdf/2311.12793.pdf

🔗Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V

@DevspПодписаться
​​🌊 LaVague: automate automation with Large Action Model framework

LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.

Github: https://github.com/lavague-ai/LaVague
Docs: https://docs.lavague.ai/en/latest/docs/
Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb

@DevspПодписаться
​​☕️ Latte: Latent Diffusion Transformer for Video Generation

Новый трансформер скрытой диффузии Latte, для генерации видео.

Latte сначала извлекает пространственно-временные маркеры из входных видео, а затем использует серию блоков-трансформеров для генерации видео в скрытом пространстве.

Latte дает ценную информацию для будущих исследований по включению Трансформеров в модели диффузии для генерации видео.

▪️Github
▪️Project
▪️Paper

@DevspПодписаться
🔥 YandexGPT 3: новая линейка больших языковых моделей третьего поколения

На сайте Yandex Cloud уже появилась первая нейросеть из линейки — YandexGPT 3 Pro, её работу можно оценить в демо-версии. Особенность этой модели: её можно дообучить под нужды бизнеса через сервис ML-разработки Yandex DataSphere. А затем встроить дообучившуюся технологию в свои продукты через API.

Обновленная модель лучше работает со сложными промтами, умеет представлять данные в формате JSON (JavaScript Object Notation) и особенно хорошо проявляет себя в таких сферах, как клиентская поддержка, онлайн-продажи, цифровые коммуникации, маркетинг, реклама и управление персоналом.

@DevspПодписаться
​​Stability AI is releasing Stable Video Diffusion! 🔥

Stable Video Diffusion — базовая модель для генеративного видео, основанную на модели изображения Stable Diffusion.

Это новая модель преобразования изображения в видео, которая позволяет получить 14-25 кадров с разрешением 576x1024 при наличии контекстного кадра такого же размера.

🖥Code: https://github.com/Stability-AI/generative-models

🦾 Announcement: https://stability.ai/news/stable-video-diffusion-open-ai-video-model

📚Paper: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

🔗Weights: https://github.com/Stability-AI/generative-models

@DevspПодписаться
​​⚡️ DBRX, a groundbreaking open-source Large Language Model (LLM) with a staggering 132 billion parameters.

DBRX — это большая языковая модель, обученная Databricks и доступная по открытой лицензии.

Этот репозиторий содержит минимальный код и примеры для выполнения вывода, а также коллекцию ресурсов и ссылок для использования DBRX.

▪️Github: https://github.com/databricks/dbrx
▪️HF: https://huggingface.co/databricks/dbrx-base
▪️Demo: https://huggingface.co/spaces/databricks/dbrx-instruct
▪️Docs: https://docs.databricks.com/en/machine-learning/foundation-models/index.html

@DevspПодписаться
​​🚀 Lumiere - это модель пространственно-временной диффузии от Google Research.

Lumiere — модель диффузии текста в видео, предназначенную для синтеза видеороликов, которые изображают реалистичное, разнообразное и связное движение.

Используя одно эталонное изображение, Lumiere может создавать видеоролики в нужном вам стиле, используя точно настроенные веса модели преобразования текста в изображение.

▪️Lumiere → https://lumiere-video.github.io/?utm_source=social
▪️Video: https://www.youtube.com/watch?v=wxLr02Dz2Sc&t=2s
▪️Paper: https://arxiv.org/abs/2401.12945

@DevspПодписаться
​​🔥Unbounded 3D City Generation🔥

CityDreamer — композиционная генеративная модель, разработанная специально для неограниченных трехмерных городов, которая разделяет генерацию экземпляров зданий от других фоновых объектов, таких как дороги, зеленые зоны и водные территории, в отдельные модули.

▪️ Project: https://infinitenoscript.com/project/city-dreamer/
▪️Code: https://github.com/hzxie/CityDreamer
▪️Demo: https://huggingface.co/spaces/hzxie/

@DevspПодписаться
ИЩЕМ Data Scientist/ ML Engineer в стартап из Кремниевой Долины.

https://www.gotit.life/


Занятость: Частичная
Формат работы: Удаленная

Требования:
🔹Опыт от 5 лет
🔹Опыт работы с LLM
🔹Знание GCP инфраструктуры
🔹Опыт коммерческой разработки
🔹Желателен опыт управления командой

 
Got it Life is an AI-powered self-care app that enhances the psychological resilience & productivity of enterprise employees through guided internal-external dialog & Psycholinguistic recognition system while saving employers money
 
Приложение позволяет юзеру говорить с самим собой как с другим человеком через смену ролей и изменение голоса. В результате юзер получает инсайты и новые идеи по решению своих внутренних трудностей и способы реализации этих идей в реальной жизни. Интеграция AI в приложение позволит увеличить качество текущего фкнуционала приложения и добавить новый.

Перспективы:
- Вхождения в команду на фултайм
- Возглавить направление
- Поездки/переезд в США

Больше деталей на интервью▶️

Отправляйте свои CV: @regina_sol
​​🗣 HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation by Hierarchical Variational Inference for Zero-shot Speech Synthesis

Синтез речи на основе больших языковых моделей (LLM) получил широкое распространение в синтезе речи.

Однако они требуют крупномасштабных данных и обладают теми же ограничениями, что и предыдущие модели авторегрессии речи, включая низкую скорость вывода и недостаточную надежность.

В этой статье предлагается HierSpeech++, быстрый и мощный синтезатор речи с нулевым выстрелом для преобразования текста в речь (TTS) и преобразования голоса (VC).

Данная модель синтеза речи позволяют значительно повысить надежность и выразительность синтетической речи.

🖥Code: https://github.com/sh-lee-prml/hierspeechpp

🦾 Checkpoint: https://drive.google.com/drive/folders/1-L_90BlCkbPyKWWHTUjt5Fsu3kz0du0w?usp=sharing

⚡️Demo: https://sh-lee-prml.github.io/HierSpeechpp-demo/

📚Paper: https://arxiv.org/abs/2311.12454v1

🔗Dataset: https://paperswithcode.com/dataset/libri-light

@DevspПодписаться
​​⚡️ DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing

Этот метод редактирования изображений, позволяет удалять объекты, менять местами предметы, перемещать их, изменять размер, добавлять и переворачивать несколько объектов, делать панорамы и масштабировать изображения, удалять объекты с изображений.

Благодаря модульным преимуществам, присущим таким многослойным представлениям, мы можем добиться точного редактирования изображений и демонстрируем, что наш подход постоянно превосходит новейшие методы пространственного редактирования, включая Self-Guidance и DiffEditor.

▪️Github: https://github.com/design-edit/DesignEdit.git
▪️Paper: https://arxiv.org/abs/2403.14487
▪️Project: https://design-edit.github.io/

@DevspПодписаться
​​🔵Differentiable and accelerated spherical transforms with JAX

S2FFT — это пакет Python для вычисления преобразований Фурье в сфере и группе вращения (Price & McEwen, 2023) с использованием JAX и PyTorch.

Он использует autodiff для обеспечения дифференцируемых преобразований, которые также можно развернуть на современных аппаратных ускорителях (например, графических процессорах и TPU).

Более конкретно, S2FFT обеспечивает поддержку сферических гармоник спина и преобразований Вигнера (как для реальных, так и для сложных сигналов), с поддержкой сопряженных преобразований, где это необходимо, и поставляется с различными оптимизациями (предварительным вычислением или без), которые можно выбрать в зависимости от доступных ресурсов и желаемого углового значения.

🖥Code: https://github.com/astro-informatics/s2fft

🦾 Project: https://astro-informatics.github.io/s2fft/

📚Paper: https://arxiv.org/abs/2311.14670v1

@DevspПодписаться
👀 Большой обзор методов ускорения инференса LLM

В этой статье ML-разработчик Яндекса подробно разобрал, какие факторы влияют на время работы модели и как они связаны с внутренним устройством GPU. Описал популярные методы в классах дистилляции и квантизации моделей. Также показал такие дополнительные техники, как Speculative Decoding и Continuous Batching.

✍️ Habr: https://habr.com/ru/companies/yandex/articles/801119/

@DevspПодписаться
«Яндекс» и факультет компьютерных наук НИУ ВШЭ расширят сотрудничество в сфере подготовки ИИ-специалистов в следующие 10 лет

Компания «Яндекс» и факультет компьютерных наук НИУ ВШЭ заявили о расширении партнёрства. ФКН был основан ВШЭ и Яндексом 10 лет назад. За время своего существования факультет стал одним из ведущих проектов по подготовке разработчиков и специалистов по машинному обучению и выпустил более 3000 человек. 

Расширение сотрудничества планируется по трём направлениям, включающим создание новых образовательных программ, развитие исследований в области искусственного интеллекта, применение генеративных нейросетей в учебном процессе.

Также в ближайшие 10 лет партнерства Яндекс и ФКН планируют увеличить количество выпускников программ Яндекса в 4 раза. Уже в этом году откроется магистратура по ИИ в маркетинге и продукте, а на магистерской программе «Современные компьютерные науки» появится направление по ИИ, которое будет готовить специалистов по генеративным технологиям. Кроме того, создадут свой студкемп по ML.