Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​👩‍💻Уже пора программировать с помощью LLM или пока рановато?

В этой статье я буду делать с помощью LLM рефакторинг двух образцов грязного кода и анализ результатов.

Читать...
​​🌟 GeoWizard — новая модель для оценки 3D-параметров изображений

GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно.

Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.

Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.

🟡Страничка GeoWizard
🖥GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡Hugging Face
🟡Arxiv

@DevspПодписаться
​​⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения

TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.

Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.

Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.

🟡Arxiv
🖥GitHub for Pytorch
🖥GitHub for Jax

@DevspПодписаться
​​🌟 Semantic-SAM — универсальная модель сегментации и распознавания сложных объектов с высокой степенью детализации

Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.

🟡Arxiv
🖥Github
🟡Модели
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией

@DevspПодписаться
​​📱 MobileLLM: оптимизированные субмиллиардные LLM для мобильных устройств

MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера.

Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.

Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.

Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.

MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.

🖥Github
🟡Arxiv

@DevspПодписаться
​​🌟 Vico — реализация методики, которая позволяет добиться большей точности в генерации композиционных видео

Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.

Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.

Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.

🖥GitHub
🟡Страница проекта
🟡Arxiv

@DevspПодписаться
​​🗣Искусство общения с LLM: Гайд по техникам Prompt Engineering

В этом гайде мы поговорим о подготовке к prompt-engineering, о базовых принципах написания промпта, про его структуру и про типы решаемых задач.

Читать...
​​⚡️DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео

DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео.

В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.

DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.

Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.

🟡Страница проекта
🖥GitHub
🟡Arxiv

@DevspПодписаться
​​🧐 Aim: Простой и удобный open-source трекер для отслеживания ML-экспериментов

Aim - это инструмент, поддерживающий отображение большого количества тренировочных прогонов (до 10.000 training runs).

Он предоставляет возможность аналитики и сравнения выполненных запусков тренировок моделей, а его SDK позволяет программно получать доступ к отслеживаемым метаданным для последующей автоматизации в Jupyter Notebook.

🟡Demos: Machine translation experiments | Lightweight-GAN experiments | FastSpeech 2 experiments | Simple MNIST
🖥GitHub
🟡Документация

@DevspПодписаться
​​🤖Создаем чат-бота техподдержки на русском языке с RAG из документации компании в OpenWebUI

В этой статье мы рассмотрим опыт создания чат-бота технической поддержки, который призван помогать отделу фронтлайна отвечать на вопросы пользователей.

Читать...
​​🔈AST: Audio Spectrogram Transformer

Audio Spectrogram Transformer применяет Vision Transformer к аудио, превращая аудио в изображение (спектрограмму).

Модель получает самые современные результаты для классификации аудио.

🤗 Hugging Face
🖥 GitHub
🟡 Архив

@DevspПодписаться
​​🥸OpenVid-1M: крупномасштабный высококачественный набор данных для преобразования текста в видео

Генерация текста в видео (T2V) недавно привлекла значительное внимание благодаря большой мультимодальности модели Sora.

Однако генерация T2V по-прежнему сталкивается с важными проблемами.

Этот набор данных открытого сценария содержит более 1 миллиона пар текст-видео, что облегчает исследования по генерации T2V.

Обширные эксперименты и исследования абляции подтверждают превосходство OpenVid-1M над предыдущими наборами данных и эффективность нашего MVDiT.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🧐Make-An-Agent: генератор обобщающей политической сети с диффузией, обусловленной поведением

Обученная на контрольных точках сети политики и их соответствующих траекториях, модель генерации демонстрирует замечательную универсальность и масштабируемость на нескольких задачах и имеет сильную способность к обобщению на невидимых задачах для вывода хорошо выполняемых политик с использованием всего лишь нескольких демонстраций в качестве входных данных.

Модель демонстрирует ее эффективность и результативность в различных областях и задачах, включая различные цели, поведение и даже между различными манипуляторами роботов.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​👾Применение нейронных сетей для анализа графов со свойствами гомофилии и гетерофилии

В этой статье мы рассмотрим новый метод для улучшения производительности GNN в графах с гетерофилией, который может привести к созданию более точных и адаптивных моделей для сложных графовых структур.

Читать...
​​ VLMEvalKit: набор инструментов с открытым исходным кодом для оценки больших многомодальностей моделей

Набор инструментов призван предоставить удобную и всеобъемлющую структуру для исследователей и разработчиков для оценки существующих многомодальных моделей и публикации воспроизводимых результатов оценки.

Хотя набор инструментов в настоящее время в основном используется для оценки больших моделей на языке видения, его конструкция совместима с будущими обновлениями, которые включают дополнительные модальности, такие как аудио и видео.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
1
​​📊Как подготовить будущих аналитиков данных и ML-специалистов к реальным бизнес-задачам

В этой статье автор расскажет о том, как получить опыт, который пригодится в работе.

Читать...
​​🫥 Как мы научили computer vision модель YOLOv8 работать с данными лидара

В этой статье вы узнаете, как мы обучили модель компьютерного зрения читать данные с лидара и вычислять человекопоток возле билбордов.

Читать...
​​😎VD3D: Укрощение больших видеодиффузионных трансформаторов для управления 3D-камерой

Новые методы демонстрируют возможность генерировать видео с управляемыми позами камеры; эти методы используют предварительно обученные модели диффузии на основе U-Net, которые явно разделяют пространственную и временную генерацию.

Подход демонстрирует современную производительность для управляемой генерации видео после тонкой настройки на наборе данных RealEstate10K.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​👤 Вызовы для DevOps в сфере поддержки ML-проектов

В этой статье автор расскажет о проблемах и лучших практиках для разработки и поддержки проектов машинного обучения с помощью MLOps.

Читать...
​​🔍BRIGHT: реалистичный и сложный тест для поиска информации с интенсивным рассуждением

BRIGHT, первый тест поиска текста, который требует интенсивного обоснования для поиска соответствующих документов.

Он создан на основе 1398 запросов реального мира, собранных из различных областей, полученных из естественных или тщательно отобранных человеческих данных.

Обширная оценка показывает, что даже самые современные модели поиска не плохо работают с ним.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться