🔥ESPNet XEUS - новая SoTA распознавания речи
Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам!
Он предварительно обучен на более чем 1 миллионе часов общедоступных наборов речевых данных.
Его скрытые состояния также могут использоваться с k-средними для семантической речевой токенизации.
▪️ HF: https://huggingface.co/espnet/xeus
▪️ Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2
@Devsp — Подписаться
Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам!
Он предварительно обучен на более чем 1 миллионе часов общедоступных наборов речевых данных.
Его скрытые состояния также могут использоваться с k-средними для семантической речевой токенизации.
▪️ HF: https://huggingface.co/espnet/xeus
▪️ Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• ESPNet XEUS - новая SoTA распознавания речи
• Непреодолимая легкость повышения утилизации GPU
• Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени
• SPPO — инструмент оптимизации предпочтений языковой моделью
• ESPNet XEUS - новая SoTA распознавания речи
• Непреодолимая легкость повышения утилизации GPU
• Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени
• SPPO — инструмент оптимизации предпочтений языковой моделью
🌟CriticGPT — модель на основе GPT-4, которая помогает увидеть ошибки в ответах ChatGPT
CriticGPT, модель на основе GPT-4, пишет критические замечания по ответам ChatGPT, чтобы помочь тренерам-людям заметить ошибки во время RLHF.
Ключевой частью RLHF является сбор сравнений, в которых люди, называемые тренерами ИИ, оценивают различные ответы ChatGPT по отношению друг к другу.
🟡Блог-пост OpenAI
🟡Статья
@Devsp — Подписаться
CriticGPT, модель на основе GPT-4, пишет критические замечания по ответам ChatGPT, чтобы помочь тренерам-людям заметить ошибки во время RLHF.
Ключевой частью RLHF является сбор сравнений, в которых люди, называемые тренерами ИИ, оценивают различные ответы ChatGPT по отношению друг к другу.
🟡Блог-пост OpenAI
🟡Статья
@Devsp — Подписаться
⚡️ InternLM представила XComposer-2.5 - мультимодальную 7B VLM с увеличенным контекстом для ввода и вывода
InternLM-XComposer-2.5 отлично справляется с различными приложениями для понимания и композиции текста и изображений, достигая возможностей уровня GPT-4V с всего лишь 7B LLM-бэкэндом.
IXC-2.5 обучается с 24K перемежающихся контекстов изображения и текста, он может легко расширяться до 96K длинных контекстов с помощью экстраполяции RoPE.
Эта возможность длинных контекстов позволяет IXC-2.5 исключительно хорошо выполнять задачи, требующие обширных входных и выходных контекстов.
🖥GitHub
🟡Arxiv
🟡Model
🟡Demo
📺 Demo video
@Devsp — Подписаться
InternLM-XComposer-2.5 отлично справляется с различными приложениями для понимания и композиции текста и изображений, достигая возможностей уровня GPT-4V с всего лишь 7B LLM-бэкэндом.
IXC-2.5 обучается с 24K перемежающихся контекстов изображения и текста, он может легко расширяться до 96K длинных контекстов с помощью экстраполяции RoPE.
Эта возможность длинных контекстов позволяет IXC-2.5 исключительно хорошо выполнять задачи, требующие обширных входных и выходных контекстов.
🖥GitHub
🟡Arxiv
🟡Model
🟡Demo
📺 Demo video
@Devsp — Подписаться
🌟 Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду. Доклад Яндекса
В этой статье автор подробно рассказал о том, какие нестандартные решения приняли разработчики для оптимизации “Баннерной крутилки”, как устроены стадии отбора документов и какое участие принимает ML в процессе работы.
Читать…
В этой статье автор подробно рассказал о том, какие нестандартные решения приняли разработчики для оптимизации “Баннерной крутилки”, как устроены стадии отбора документов и какое участие принимает ML в процессе работы.
Читать…
Хабр
Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду. Доклад Яндекса
«Баннерная крутилка» — один из самых высоконагруженных сервисов в Яндексе. Он умеет переживать 700 тысяч RPS, а иногда и больше. Каждый раз, когда приходит запрос, крутилка...
🌟Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме
LazyDiffusion — это диффузионный трансформер, который очень быстро генерирует объекты по промпту в области, заданной маской.
Генерируются только пиксели под маской, и время выполнения зависит больше от размера маски, чем от размера изображения.
🟡Страничка Lazy Diffusion
🟡Arxiv
@Devsp — Подписаться
LazyDiffusion — это диффузионный трансформер, который очень быстро генерирует объекты по промпту в области, заданной маской.
Генерируются только пиксели под маской, и время выполнения зависит больше от размера маски, чем от размера изображения.
🟡Страничка Lazy Diffusion
🟡Arxiv
@Devsp — Подписаться
🌟Arcee Agent 7B — свежая модель на базе Qwen2-7B
Arcee Agent — это передовая модель языка параметров 7B, специально разработанная для вызова функций и использования инструментов.
Инициализированная с Qwen2-7B, она конкурирует по производительности с гораздо более крупными моделями, сохраняя при этом эффективность и скорость.
Эта модель особенно подходит для разработчиков, исследователей и предприятий, стремящихся реализовать сложные решения на основе ИИ без вычислительных издержек более крупных языковых моделей.
🤗 Hugging Face
@Devsp — Подписаться
Arcee Agent — это передовая модель языка параметров 7B, специально разработанная для вызова функций и использования инструментов.
Инициализированная с Qwen2-7B, она конкурирует по производительности с гораздо более крупными моделями, сохраняя при этом эффективность и скорость.
Эта модель особенно подходит для разработчиков, исследователей и предприятий, стремящихся реализовать сложные решения на основе ИИ без вычислительных издержек более крупных языковых моделей.
🤗 Hugging Face
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей
• ML-алгоритмы против хакеров: как поведенческая аналитика меняет правила игры в кибербезопасности
• Как быстро растут нейросети: прогресс Stable Diffusion за все время
• Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме
• Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей
• ML-алгоритмы против хакеров: как поведенческая аналитика меняет правила игры в кибербезопасности
• Как быстро растут нейросети: прогресс Stable Diffusion за все время
• Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме
⚡️Обновление nanoLLaVA-1.5 1B
На днях обновилась Vision-Language модель nanoLLaVA-1.5 1B для работы на edge девайсах.
nanoLLaVA-1.5 — это «маленькая, но мощная» модель языка видения 1B, разработанная для эффективной работы на периферийных устройствах.
Значительно улучшилась производительность по сравнению с v1.0, при этом размер остался таким же небольшим, что очень удобно для многих применений
🤗 Hugging Face
🖥Github
@Devsp — Подписаться
На днях обновилась Vision-Language модель nanoLLaVA-1.5 1B для работы на edge девайсах.
nanoLLaVA-1.5 — это «маленькая, но мощная» модель языка видения 1B, разработанная для эффективной работы на периферийных устройствах.
Значительно улучшилась производительность по сравнению с v1.0, при этом размер остался таким же небольшим, что очень удобно для многих применений
🤗 Hugging Face
🖥Github
@Devsp — Подписаться
🌟 GeoWizard — новая модель для оценки 3D-параметров изображений
GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно.
Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.
Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.
🟡Страничка GeoWizard
🖥GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡Hugging Face
🟡Arxiv
@Devsp — Подписаться
GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно.
Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.
Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.
🟡Страничка GeoWizard
🖥GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡Hugging Face
🟡Arxiv
@Devsp — Подписаться
⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения
TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
🟡Arxiv
🖥GitHub for Pytorch
🖥GitHub for Jax
@Devsp — Подписаться
TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
🟡Arxiv
🖥GitHub for Pytorch
🖥GitHub for Jax
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• GeoWizard — новая модель для оценки 3D-параметров изображений
• Уже пора программировать с помощью LLM или пока рановато?
• Обновление nanoLLaVA-1.5 1B
• GeoWizard — новая модель для оценки 3D-параметров изображений
• Уже пора программировать с помощью LLM или пока рановато?
• Обновление nanoLLaVA-1.5 1B
🌟 Semantic-SAM — универсальная модель сегментации и распознавания сложных объектов с высокой степенью детализации
Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.
🟡Arxiv
🖥Github
🟡Модели
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией
@Devsp — Подписаться
Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.
🟡Arxiv
🖥Github
🟡Модели
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией
@Devsp — Подписаться
📱 MobileLLM: оптимизированные субмиллиардные LLM для мобильных устройств
MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера.
Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.
Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.
Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.
MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.
🖥Github
🟡Arxiv
@Devsp — Подписаться
MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера.
Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.
Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.
Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.
MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.
🖥Github
🟡Arxiv
@Devsp — Подписаться
🌟 Vico — реализация методики, которая позволяет добиться большей точности в генерации композиционных видео
Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.
Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.
Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.
🖥GitHub
🟡Страница проекта
🟡Arxiv
@Devsp — Подписаться
Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.
Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.
Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.
🖥GitHub
🟡Страница проекта
🟡Arxiv
@Devsp — Подписаться
⚡️DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео
DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео.
В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.
DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.
🟡Страница проекта
🖥GitHub
🟡Arxiv
@Devsp — Подписаться
DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео.
В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.
DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.
🟡Страница проекта
🖥GitHub
🟡Arxiv
@Devsp — Подписаться