Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​📊Как подготовить будущих аналитиков данных и ML-специалистов к реальным бизнес-задачам

В этой статье автор расскажет о том, как получить опыт, который пригодится в работе.

Читать...
​​🫥 Как мы научили computer vision модель YOLOv8 работать с данными лидара

В этой статье вы узнаете, как мы обучили модель компьютерного зрения читать данные с лидара и вычислять человекопоток возле билбордов.

Читать...
​​😎VD3D: Укрощение больших видеодиффузионных трансформаторов для управления 3D-камерой

Новые методы демонстрируют возможность генерировать видео с управляемыми позами камеры; эти методы используют предварительно обученные модели диффузии на основе U-Net, которые явно разделяют пространственную и временную генерацию.

Подход демонстрирует современную производительность для управляемой генерации видео после тонкой настройки на наборе данных RealEstate10K.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​👤 Вызовы для DevOps в сфере поддержки ML-проектов

В этой статье автор расскажет о проблемах и лучших практиках для разработки и поддержки проектов машинного обучения с помощью MLOps.

Читать...
​​🔍BRIGHT: реалистичный и сложный тест для поиска информации с интенсивным рассуждением

BRIGHT, первый тест поиска текста, который требует интенсивного обоснования для поиска соответствующих документов.

Он создан на основе 1398 запросов реального мира, собранных из различных областей, полученных из естественных или тщательно отобранных человеческих данных.

Обширная оценка показывает, что даже самые современные модели поиска не плохо работают с ним.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​😉Как мы визуализировали 150+ страниц документации DS-решений

В этой статье автор расскажет о том, как команда создала визуализацию для документации своих DS-решений (Data Science решений), которые описаны на 150+ страницах документации.

Читать...
​​🦾 CLAY: Управляемая крупномасштабная генеративная модель для создания высококачественных 3D-ресурсов

CLAY — генератор 3D-геометрии и материалов, разработанный для легкого преобразования человеческого воображения в сложные 3D-цифровые структуры.

Он поддерживает классический ввод текста или изображения, а также элементы управления с поддержкой 3D из различных примитивов.

В частности, он использует нейронные поля для представления непрерывных и полных поверхностей и использует модуль генеративной геометрии с чистыми блоками трансформатора в скрытом пространстве.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🧠Сравнение сервисов Искусственного Интеллекта

В этой статье вы узнаете о сравнении 6 нейросетевых сервисов (GPT-4o, Gemini, GigaChat, YaGPT3, Llama3 и DeepSeek) и их возможностях.

Читать...
​​🗣PM-LLM-Benchmark: Оценка больших языковых моделей в задачах анализа процессов

PM-LLM-Benchmark — первый всеобъемлющий бенчмарк для PM, фокусирующийся на знаниях предметной области (специфичных для анализа процессов и специфичных для процессов) и на различных стратегиях внедрения.

Он полезен для выявления LLM, которые подходят для задач анализа процессов, необходимы дальнейшие исследования для преодоления предвзятости оценки и проведения более тщательного ранжирования конкурентоспособных LLM.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🤖Введение в RPA: Роботизация процессов глазами разработчика

В этой статье автор расскажет о технологии, которая позволяет автоматизировать рутинные бизнес-процессы с помощью программных роботов.

Читать...
​​👀 EVLM: эффективная модель визуального языка для визуального понимания

Наш метод в первую очередь включает: использование перекрестного внимания для взаимодействия изображения и текста, аналогичного Flamingo использование иерархических функций ViT, а также введение механизма Mixture of Experts (MoE) для повышения эффективности модели.

Модель достигает конкурентоспособных оценок в публичных многомодальных тестах и ​​хорошо справляется с такими задачами, как субтитры к изображениям и видео.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🤫Как с помощью supervised fine-tuning кастомизировать LLM

В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl.

Читать...
​​⚡️SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео

Модель большого языка видео (LLM) без обучения, которая может совместно захватывать подробную пространственную семантику и долгосрочный временной контекст, не превышая бюджет токенов обычно используемых LLM.

Это реализуется с помощью двухпоточной конструкции входов SlowFast для видео LLM для эффективного агрегирования признаков из отобранных видеокадров.

Экспериментальные результаты показывают, что SF-LLaVA превосходит существующие методы без обучения в широком спектре задач видео.

В некоторых тестах он достигает сопоставимой или даже более высокой производительности по сравнению с современными моделями Video LLM, которые точно настроены на наборы видеоданных.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
🤖 Квантизация моделей: код, позволяющий сжимать нейросети в 8 раз без потери качества

Яндекс представил новое решение, позволяющее экономить ресурсы компаний, разрабатывающих и внедряющих нейросети. Например, благодаря новому методу модель Llama 2 после сжатия можно будет запустить на 1 графическом процессоре вместо 4.

Читать…
​​🧐Как визуальные головоломки помогут выявить AGI

В статье обсуждается ограничения текущих методов оценки интеллекта искусственного интеллекта (AI) и необходимости разработки новых подходов, учитывающих абстракцию и рассуждение.

Читать...
​​🗣Обучение языковых моделей на примере сервиса протоколирования встреч AiGenda

В этой статье хочу рассказать про то, как мы обучаем и дообучаем модели, какие метрики используем.

Читать...
​​👨‍💻OpenDevin: открытая платформа для разработчиков программного обеспечения на основе ИИ в качестве универсальных агентов

Платформа для разработки мощных и гибких агентов ИИ, которые взаимодействуют с миром аналогично тому, как это делает разработчик-человек: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц.

OpenDevin, выпущенный по разрешительной лицензии MIT, представляет собой общественный проект, охватывающий академическую среду и промышленность, в который внесли вклад более 1,3 тыс. человек от более чем 160 участников, и который будет совершенствоваться в будущем.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​👤Настройся на RAGAS и настрой RAGAS под себя

В этой статье автор расскажет о том, как оценивать RAG-модели и автоматизировать этот процесс под свою задачу.

Читать...
​​📸 SV4D: Динамическая генерация 3D-контента с многокадровой и многовидовой согласованностью

Модель скрытой диффузии видео для многокадровой и многовидовой согласованной генерации динамического 3D-контента.

Учитывая монокулярное эталонное видео, SV4D генерирует новые виды для каждого видеокадра, которые являются временно согласованными.

Обширные экспериментальные результаты на нескольких наборах данных и исследования пользователей демонстрируют современную производительность SV4D при синтезе видео с новыми видами, а также при генерации 4D по сравнению с предыдущими работами.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​😎Какие задачи сегодня решаются с помощью транспортной видеоаналитики

В этой статье расскажу, где применяется транспортная видеоаналитика и как технологии из этой отрасли влияют на нашу жизнь.

Читать...