Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​⚡️Обновление nanoLLaVA-1.5 1B

На днях обновилась Vision-Language модель nanoLLaVA-1.5 1B для работы на edge девайсах.

nanoLLaVA-1.5 — это «маленькая, но мощная» модель языка видения 1B, разработанная для эффективной работы на периферийных устройствах.

Значительно улучшилась производительность по сравнению с v1.0, при этом размер остался таким же небольшим, что очень удобно для многих применений

🤗 Hugging Face
🖥Github

@DevspПодписаться
​​👩‍💻Уже пора программировать с помощью LLM или пока рановато?

В этой статье я буду делать с помощью LLM рефакторинг двух образцов грязного кода и анализ результатов.

Читать...
​​🌟 GeoWizard — новая модель для оценки 3D-параметров изображений

GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно.

Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.

Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.

🟡Страничка GeoWizard
🖥GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡Hugging Face
🟡Arxiv

@DevspПодписаться
​​⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения

TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.

Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.

Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.

🟡Arxiv
🖥GitHub for Pytorch
🖥GitHub for Jax

@DevspПодписаться
​​🌟 Semantic-SAM — универсальная модель сегментации и распознавания сложных объектов с высокой степенью детализации

Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.

🟡Arxiv
🖥Github
🟡Модели
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией

@DevspПодписаться
​​📱 MobileLLM: оптимизированные субмиллиардные LLM для мобильных устройств

MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера.

Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.

Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.

Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.

MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.

🖥Github
🟡Arxiv

@DevspПодписаться
​​🌟 Vico — реализация методики, которая позволяет добиться большей точности в генерации композиционных видео

Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.

Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.

Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.

🖥GitHub
🟡Страница проекта
🟡Arxiv

@DevspПодписаться
​​🗣Искусство общения с LLM: Гайд по техникам Prompt Engineering

В этом гайде мы поговорим о подготовке к prompt-engineering, о базовых принципах написания промпта, про его структуру и про типы решаемых задач.

Читать...
​​⚡️DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео

DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео.

В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.

DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.

Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.

🟡Страница проекта
🖥GitHub
🟡Arxiv

@DevspПодписаться
​​🧐 Aim: Простой и удобный open-source трекер для отслеживания ML-экспериментов

Aim - это инструмент, поддерживающий отображение большого количества тренировочных прогонов (до 10.000 training runs).

Он предоставляет возможность аналитики и сравнения выполненных запусков тренировок моделей, а его SDK позволяет программно получать доступ к отслеживаемым метаданным для последующей автоматизации в Jupyter Notebook.

🟡Demos: Machine translation experiments | Lightweight-GAN experiments | FastSpeech 2 experiments | Simple MNIST
🖥GitHub
🟡Документация

@DevspПодписаться
​​🤖Создаем чат-бота техподдержки на русском языке с RAG из документации компании в OpenWebUI

В этой статье мы рассмотрим опыт создания чат-бота технической поддержки, который призван помогать отделу фронтлайна отвечать на вопросы пользователей.

Читать...
​​🔈AST: Audio Spectrogram Transformer

Audio Spectrogram Transformer применяет Vision Transformer к аудио, превращая аудио в изображение (спектрограмму).

Модель получает самые современные результаты для классификации аудио.

🤗 Hugging Face
🖥 GitHub
🟡 Архив

@DevspПодписаться
​​🥸OpenVid-1M: крупномасштабный высококачественный набор данных для преобразования текста в видео

Генерация текста в видео (T2V) недавно привлекла значительное внимание благодаря большой мультимодальности модели Sora.

Однако генерация T2V по-прежнему сталкивается с важными проблемами.

Этот набор данных открытого сценария содержит более 1 миллиона пар текст-видео, что облегчает исследования по генерации T2V.

Обширные эксперименты и исследования абляции подтверждают превосходство OpenVid-1M над предыдущими наборами данных и эффективность нашего MVDiT.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🧐Make-An-Agent: генератор обобщающей политической сети с диффузией, обусловленной поведением

Обученная на контрольных точках сети политики и их соответствующих траекториях, модель генерации демонстрирует замечательную универсальность и масштабируемость на нескольких задачах и имеет сильную способность к обобщению на невидимых задачах для вывода хорошо выполняемых политик с использованием всего лишь нескольких демонстраций в качестве входных данных.

Модель демонстрирует ее эффективность и результативность в различных областях и задачах, включая различные цели, поведение и даже между различными манипуляторами роботов.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​👾Применение нейронных сетей для анализа графов со свойствами гомофилии и гетерофилии

В этой статье мы рассмотрим новый метод для улучшения производительности GNN в графах с гетерофилией, который может привести к созданию более точных и адаптивных моделей для сложных графовых структур.

Читать...
​​ VLMEvalKit: набор инструментов с открытым исходным кодом для оценки больших многомодальностей моделей

Набор инструментов призван предоставить удобную и всеобъемлющую структуру для исследователей и разработчиков для оценки существующих многомодальных моделей и публикации воспроизводимых результатов оценки.

Хотя набор инструментов в настоящее время в основном используется для оценки больших моделей на языке видения, его конструкция совместима с будущими обновлениями, которые включают дополнительные модальности, такие как аудио и видео.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
1
​​📊Как подготовить будущих аналитиков данных и ML-специалистов к реальным бизнес-задачам

В этой статье автор расскажет о том, как получить опыт, который пригодится в работе.

Читать...
​​🫥 Как мы научили computer vision модель YOLOv8 работать с данными лидара

В этой статье вы узнаете, как мы обучили модель компьютерного зрения читать данные с лидара и вычислять человекопоток возле билбордов.

Читать...
​​😎VD3D: Укрощение больших видеодиффузионных трансформаторов для управления 3D-камерой

Новые методы демонстрируют возможность генерировать видео с управляемыми позами камеры; эти методы используют предварительно обученные модели диффузии на основе U-Net, которые явно разделяют пространственную и временную генерацию.

Подход демонстрирует современную производительность для управляемой генерации видео после тонкой настройки на наборе данных RealEstate10K.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​👤 Вызовы для DevOps в сфере поддержки ML-проектов

В этой статье автор расскажет о проблемах и лучших практиках для разработки и поддержки проектов машинного обучения с помощью MLOps.

Читать...