Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​😉Как мы визуализировали 150+ страниц документации DS-решений

В этой статье автор расскажет о том, как команда создала визуализацию для документации своих DS-решений (Data Science решений), которые описаны на 150+ страницах документации.

Читать...
​​🦾 CLAY: Управляемая крупномасштабная генеративная модель для создания высококачественных 3D-ресурсов

CLAY — генератор 3D-геометрии и материалов, разработанный для легкого преобразования человеческого воображения в сложные 3D-цифровые структуры.

Он поддерживает классический ввод текста или изображения, а также элементы управления с поддержкой 3D из различных примитивов.

В частности, он использует нейронные поля для представления непрерывных и полных поверхностей и использует модуль генеративной геометрии с чистыми блоками трансформатора в скрытом пространстве.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🧠Сравнение сервисов Искусственного Интеллекта

В этой статье вы узнаете о сравнении 6 нейросетевых сервисов (GPT-4o, Gemini, GigaChat, YaGPT3, Llama3 и DeepSeek) и их возможностях.

Читать...
​​🗣PM-LLM-Benchmark: Оценка больших языковых моделей в задачах анализа процессов

PM-LLM-Benchmark — первый всеобъемлющий бенчмарк для PM, фокусирующийся на знаниях предметной области (специфичных для анализа процессов и специфичных для процессов) и на различных стратегиях внедрения.

Он полезен для выявления LLM, которые подходят для задач анализа процессов, необходимы дальнейшие исследования для преодоления предвзятости оценки и проведения более тщательного ранжирования конкурентоспособных LLM.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🤖Введение в RPA: Роботизация процессов глазами разработчика

В этой статье автор расскажет о технологии, которая позволяет автоматизировать рутинные бизнес-процессы с помощью программных роботов.

Читать...
​​👀 EVLM: эффективная модель визуального языка для визуального понимания

Наш метод в первую очередь включает: использование перекрестного внимания для взаимодействия изображения и текста, аналогичного Flamingo использование иерархических функций ViT, а также введение механизма Mixture of Experts (MoE) для повышения эффективности модели.

Модель достигает конкурентоспособных оценок в публичных многомодальных тестах и ​​хорошо справляется с такими задачами, как субтитры к изображениям и видео.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🤫Как с помощью supervised fine-tuning кастомизировать LLM

В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl.

Читать...
​​⚡️SlowFast-LLaVA: надежная не требующая обучения базовая модель для больших языковых моделей видео

Модель большого языка видео (LLM) без обучения, которая может совместно захватывать подробную пространственную семантику и долгосрочный временной контекст, не превышая бюджет токенов обычно используемых LLM.

Это реализуется с помощью двухпоточной конструкции входов SlowFast для видео LLM для эффективного агрегирования признаков из отобранных видеокадров.

Экспериментальные результаты показывают, что SF-LLaVA превосходит существующие методы без обучения в широком спектре задач видео.

В некоторых тестах он достигает сопоставимой или даже более высокой производительности по сравнению с современными моделями Video LLM, которые точно настроены на наборы видеоданных.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
🤖 Квантизация моделей: код, позволяющий сжимать нейросети в 8 раз без потери качества

Яндекс представил новое решение, позволяющее экономить ресурсы компаний, разрабатывающих и внедряющих нейросети. Например, благодаря новому методу модель Llama 2 после сжатия можно будет запустить на 1 графическом процессоре вместо 4.

Читать…
​​🧐Как визуальные головоломки помогут выявить AGI

В статье обсуждается ограничения текущих методов оценки интеллекта искусственного интеллекта (AI) и необходимости разработки новых подходов, учитывающих абстракцию и рассуждение.

Читать...
​​🗣Обучение языковых моделей на примере сервиса протоколирования встреч AiGenda

В этой статье хочу рассказать про то, как мы обучаем и дообучаем модели, какие метрики используем.

Читать...
​​👨‍💻OpenDevin: открытая платформа для разработчиков программного обеспечения на основе ИИ в качестве универсальных агентов

Платформа для разработки мощных и гибких агентов ИИ, которые взаимодействуют с миром аналогично тому, как это делает разработчик-человек: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц.

OpenDevin, выпущенный по разрешительной лицензии MIT, представляет собой общественный проект, охватывающий академическую среду и промышленность, в который внесли вклад более 1,3 тыс. человек от более чем 160 участников, и который будет совершенствоваться в будущем.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​👤Настройся на RAGAS и настрой RAGAS под себя

В этой статье автор расскажет о том, как оценивать RAG-модели и автоматизировать этот процесс под свою задачу.

Читать...
​​📸 SV4D: Динамическая генерация 3D-контента с многокадровой и многовидовой согласованностью

Модель скрытой диффузии видео для многокадровой и многовидовой согласованной генерации динамического 3D-контента.

Учитывая монокулярное эталонное видео, SV4D генерирует новые виды для каждого видеокадра, которые являются временно согласованными.

Обширные экспериментальные результаты на нескольких наборах данных и исследования пользователей демонстрируют современную производительность SV4D при синтезе видео с новыми видами, а также при генерации 4D по сравнению с предыдущими работами.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​😎Какие задачи сегодня решаются с помощью транспортной видеоаналитики

В этой статье расскажу, где применяется транспортная видеоаналитика и как технологии из этой отрасли влияют на нашу жизнь.

Читать...
​​🤩 Diffree: Текстовая визуализация свободных объектов с использованием модели диффузии

Модель облегчает текстовое управление добавлением объектов с помощью только текстового управления.

Diffree однозначно предсказывает положение нового объекта и выполняет добавление объектов с помощью только текстового руководства.

Обширные эксперименты показывают, что Diffree отлично справляется с добавлением новых объектов с высокой степенью успеха, сохраняя при этом последовательность фона, пространственную уместность, а также релевантность и качество объектов.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🦆 Всё что нужно знать про DuckDB

В этой статье рассказано, как вам может помочь утка при работе с данными, с OLAP-нагрузкой и как она может плавать в вашем Data Lake.

Читать...
​​🗣Dallah: Мультимодальная большая языковая модель с учетом диалектов для арабского языка

Dallah демонстрирует свою способность обрабатывать сложные диалектные взаимодействия, включающие как текстовые, так и визуальные элементы.

Модель преуспевает в двух контрольных тестах: один оценивает ее производительность на современном стандартном арабском языке (MSA), а другой специально разработан для оценки диалектных ответов.

Помимо надежной работы в задачах мультимодального взаимодействия, Dallah обладает потенциалом проложить путь для дальнейшего развития арабских MLLM-систем, учитывающих диалекты.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🤖Как ИИ-компании переживают “нефтяной кризис”? Как медийные платформы зарабатывают, не делая почти ничего?

В этой статье авто расскажет о том, как ИИ компании переживают кризис данных, а платформы по распространению контента зарабатывают миллиарды долларов, не делая при этом ничего.

Читать...
​​🚀MIBench: Оценка многомодульных больших языковых моделей на основе нескольких изображений

Метод комплексной оценки мелкозернистых возможностей MLLM в сценариях с несколькими изображениями.

В частности, MIBench классифицирует многообразные возможности по трем сценариям: многообразное обучение (MII), многомодальный поиск знаний (MKS) и многомодальное контекстное обучение (MIC) и создает 13 задач с общим количеством 13 тыс. аннотированных образцов.

Во время построения данных для MII и MKS модель извлекает правильные варианты из ручных аннотаций и создаем сложные отвлекающие факторы для получения вопросов с несколькими вариантами ответов.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться