🌟Arcee Agent 7B — свежая модель на базе Qwen2-7B
Arcee Agent — это передовая модель языка параметров 7B, специально разработанная для вызова функций и использования инструментов.
Инициализированная с Qwen2-7B, она конкурирует по производительности с гораздо более крупными моделями, сохраняя при этом эффективность и скорость.
Эта модель особенно подходит для разработчиков, исследователей и предприятий, стремящихся реализовать сложные решения на основе ИИ без вычислительных издержек более крупных языковых моделей.
🤗 Hugging Face
@Devsp — Подписаться
Arcee Agent — это передовая модель языка параметров 7B, специально разработанная для вызова функций и использования инструментов.
Инициализированная с Qwen2-7B, она конкурирует по производительности с гораздо более крупными моделями, сохраняя при этом эффективность и скорость.
Эта модель особенно подходит для разработчиков, исследователей и предприятий, стремящихся реализовать сложные решения на основе ИИ без вычислительных издержек более крупных языковых моделей.
🤗 Hugging Face
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей
• ML-алгоритмы против хакеров: как поведенческая аналитика меняет правила игры в кибербезопасности
• Как быстро растут нейросети: прогресс Stable Diffusion за все время
• Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме
• Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей
• ML-алгоритмы против хакеров: как поведенческая аналитика меняет правила игры в кибербезопасности
• Как быстро растут нейросети: прогресс Stable Diffusion за все время
• Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме
⚡️Обновление nanoLLaVA-1.5 1B
На днях обновилась Vision-Language модель nanoLLaVA-1.5 1B для работы на edge девайсах.
nanoLLaVA-1.5 — это «маленькая, но мощная» модель языка видения 1B, разработанная для эффективной работы на периферийных устройствах.
Значительно улучшилась производительность по сравнению с v1.0, при этом размер остался таким же небольшим, что очень удобно для многих применений
🤗 Hugging Face
🖥Github
@Devsp — Подписаться
На днях обновилась Vision-Language модель nanoLLaVA-1.5 1B для работы на edge девайсах.
nanoLLaVA-1.5 — это «маленькая, но мощная» модель языка видения 1B, разработанная для эффективной работы на периферийных устройствах.
Значительно улучшилась производительность по сравнению с v1.0, при этом размер остался таким же небольшим, что очень удобно для многих применений
🤗 Hugging Face
🖥Github
@Devsp — Подписаться
🌟 GeoWizard — новая модель для оценки 3D-параметров изображений
GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно.
Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.
Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.
🟡Страничка GeoWizard
🖥GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡Hugging Face
🟡Arxiv
@Devsp — Подписаться
GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно.
Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.
Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.
🟡Страничка GeoWizard
🖥GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡Hugging Face
🟡Arxiv
@Devsp — Подписаться
⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения
TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
🟡Arxiv
🖥GitHub for Pytorch
🖥GitHub for Jax
@Devsp — Подписаться
TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
🟡Arxiv
🖥GitHub for Pytorch
🖥GitHub for Jax
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• GeoWizard — новая модель для оценки 3D-параметров изображений
• Уже пора программировать с помощью LLM или пока рановато?
• Обновление nanoLLaVA-1.5 1B
• GeoWizard — новая модель для оценки 3D-параметров изображений
• Уже пора программировать с помощью LLM или пока рановато?
• Обновление nanoLLaVA-1.5 1B
🌟 Semantic-SAM — универсальная модель сегментации и распознавания сложных объектов с высокой степенью детализации
Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.
🟡Arxiv
🖥Github
🟡Модели
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией
@Devsp — Подписаться
Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.
🟡Arxiv
🖥Github
🟡Модели
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией
@Devsp — Подписаться
📱 MobileLLM: оптимизированные субмиллиардные LLM для мобильных устройств
MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера.
Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.
Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.
Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.
MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.
🖥Github
🟡Arxiv
@Devsp — Подписаться
MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера.
Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.
Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.
Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.
MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.
🖥Github
🟡Arxiv
@Devsp — Подписаться
🌟 Vico — реализация методики, которая позволяет добиться большей точности в генерации композиционных видео
Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.
Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.
Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.
🖥GitHub
🟡Страница проекта
🟡Arxiv
@Devsp — Подписаться
Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.
Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.
Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.
🖥GitHub
🟡Страница проекта
🟡Arxiv
@Devsp — Подписаться
⚡️DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео
DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео.
В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.
DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.
🟡Страница проекта
🖥GitHub
🟡Arxiv
@Devsp — Подписаться
DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео.
В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.
DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.
🟡Страница проекта
🖥GitHub
🟡Arxiv
@Devsp — Подписаться
🧐 Aim: Простой и удобный open-source трекер для отслеживания ML-экспериментов
Aim - это инструмент, поддерживающий отображение большого количества тренировочных прогонов (до 10.000 training runs).
Он предоставляет возможность аналитики и сравнения выполненных запусков тренировок моделей, а его SDK позволяет программно получать доступ к отслеживаемым метаданным для последующей автоматизации в Jupyter Notebook.
🟡Demos: Machine translation experiments | Lightweight-GAN experiments | FastSpeech 2 experiments | Simple MNIST
🖥GitHub
🟡Документация
@Devsp — Подписаться
Aim - это инструмент, поддерживающий отображение большого количества тренировочных прогонов (до 10.000 training runs).
Он предоставляет возможность аналитики и сравнения выполненных запусков тренировок моделей, а его SDK позволяет программно получать доступ к отслеживаемым метаданным для последующей автоматизации в Jupyter Notebook.
🟡Demos: Machine translation experiments | Lightweight-GAN experiments | FastSpeech 2 experiments | Simple MNIST
🖥GitHub
🟡Документация
@Devsp — Подписаться
GitHub
GitHub - aimhubio/aim: Aim 💫 — An easy-to-use & supercharged open-source experiment tracker.
Aim 💫 — An easy-to-use & supercharged open-source experiment tracker. - aimhubio/aim
🔈AST: Audio Spectrogram Transformer
Audio Spectrogram Transformer применяет Vision Transformer к аудио, превращая аудио в изображение (спектрограмму).
Модель получает самые современные результаты для классификации аудио.
🤗 Hugging Face
🖥 GitHub
🟡 Архив
@Devsp — Подписаться
Audio Spectrogram Transformer применяет Vision Transformer к аудио, превращая аудио в изображение (спектрограмму).
Модель получает самые современные результаты для классификации аудио.
🤗 Hugging Face
🖥 GitHub
🟡 Архив
@Devsp — Подписаться
🥸OpenVid-1M: крупномасштабный высококачественный набор данных для преобразования текста в видео
Генерация текста в видео (T2V) недавно привлекла значительное внимание благодаря большой мультимодальности модели Sora.
Однако генерация T2V по-прежнему сталкивается с важными проблемами.
Этот набор данных открытого сценария содержит более 1 миллиона пар текст-видео, что облегчает исследования по генерации T2V.
Обширные эксперименты и исследования абляции подтверждают превосходство OpenVid-1M над предыдущими наборами данных и эффективность нашего MVDiT.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Генерация текста в видео (T2V) недавно привлекла значительное внимание благодаря большой мультимодальности модели Sora.
Однако генерация T2V по-прежнему сталкивается с важными проблемами.
Этот набор данных открытого сценария содержит более 1 миллиона пар текст-видео, что облегчает исследования по генерации T2V.
Обширные эксперименты и исследования абляции подтверждают превосходство OpenVid-1M над предыдущими наборами данных и эффективность нашего MVDiT.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
🧐Make-An-Agent: генератор обобщающей политической сети с диффузией, обусловленной поведением
Обученная на контрольных точках сети политики и их соответствующих траекториях, модель генерации демонстрирует замечательную универсальность и масштабируемость на нескольких задачах и имеет сильную способность к обобщению на невидимых задачах для вывода хорошо выполняемых политик с использованием всего лишь нескольких демонстраций в качестве входных данных.
Модель демонстрирует ее эффективность и результативность в различных областях и задачах, включая различные цели, поведение и даже между различными манипуляторами роботов.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Обученная на контрольных точках сети политики и их соответствующих траекториях, модель генерации демонстрирует замечательную универсальность и масштабируемость на нескольких задачах и имеет сильную способность к обобщению на невидимых задачах для вывода хорошо выполняемых политик с использованием всего лишь нескольких демонстраций в качестве входных данных.
Модель демонстрирует ее эффективность и результативность в различных областях и задачах, включая различные цели, поведение и даже между различными манипуляторами роботов.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
⚙ VLMEvalKit: набор инструментов с открытым исходным кодом для оценки больших многомодальностей моделей
Набор инструментов призван предоставить удобную и всеобъемлющую структуру для исследователей и разработчиков для оценки существующих многомодальных моделей и публикации воспроизводимых результатов оценки.
Хотя набор инструментов в настоящее время в основном используется для оценки больших моделей на языке видения, его конструкция совместима с будущими обновлениями, которые включают дополнительные модальности, такие как аудио и видео.
🤗 Hugging Face
💾 Arxiv
📂 PDF
@Devsp — Подписаться
Набор инструментов призван предоставить удобную и всеобъемлющую структуру для исследователей и разработчиков для оценки существующих многомодальных моделей и публикации воспроизводимых результатов оценки.
Хотя набор инструментов в настоящее время в основном используется для оценки больших моделей на языке видения, его конструкция совместима с будущими обновлениями, которые включают дополнительные модальности, такие как аудио и видео.
🤗 Hugging Face
💾 Arxiv
@Devsp — Подписаться
huggingface.co
Paper page - VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality
Models
Models
Join the discussion on this paper page
❤1