NEW BOT Телеграм, страница

Data Science | Machinelearning [ru]

🖥 Самые интересные публикации за последние дни:

• Unstructured — библиотека Python для предобработки сырых данных

• EAGLE — метод, позволяющий ускорить генерацию ответов от LLM

• «Midjourney на коленке, но теперь с S3». Как хранить генерации с промптами в объектном хранилище

2.56K views17:07

Data Science | Machinelearning [ru]

🌟SPPO — инструмент оптимизации предпочтений языковой моделью

SPPO может значительно повысить производительность LLM без сильных внешних сигналов, таких как ответы или предпочтения от GPT-4.

Он может превзойти модель, обученную с помощью итеративной прямой оптимизации предпочтений (DPO), среди прочих методов.

🖥GitHub
🤗 Hugging Face
🟡Arxiv

@Devsp — Подписаться

2.53K views12:07

Data Science | Machinelearning [ru]

🤩 Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени

PAB — это первый подход к созданию видео на основе диффузионных трансформеров в реальном времени, обеспечивающий качество без потерь и не требующий обучения.

PAB оптимизирует работу с механизмом внимания, что позволяет достичь 21.6 FPS с 10.6-кратным ускорением для популярных моделей генерации видео на основе DiT, включая Open-Sora, Open-Sora-Plan и Latte.

🟡Страничка Pyramid Attention Broadcast
🖥GitHub

@Devsp — Подписаться

2.6K views17:07

Data Science | Machinelearning [ru]

🗣 MARS 5 TTS: новая модель от компании Camb AI для генерации голоса и преобразования текста в речь с открытым исходным кодом

Модель следует двухэтапному конвейеру AR-NAR с принципиально новым компонентом NAR.

Всего с 5 секундами аудио и фрагментом текста MARS5 может генерировать речь даже для сложных и разнообразных просодических сценариев, таких как спортивные комментарии, аниме и многое другое.

Идентификация говорящего определяется с помощью файла аудиоссылки длительностью от 2 до 12 секунд, при этом длина около 6 секунд дает оптимальные результаты.

▪️Github: https://github.com/Camb-ai/MARS5-TTS
▪️Demo: https://www.camb.ai/
▪️HF: https://huggingface.co/CAMB-AI/MARS5-TTS
▪️Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb

@Devsp — Подписаться

0:34

2.68K views12:07

Data Science | Machinelearning [ru]

🧠Непреодолимая легкость повышения утилизации GPU

В этой статье вы узнаете, как перенести лучшие практики из мира производства в сферу машинного обучения, подобрать конфигурацию вычислительной инфраструктуры под ML-нагрузки и максимально эффективно ее использовать.

Читать...

2.53K views17:07

Data Science | Machinelearning [ru]

🔥ESPNet XEUS - новая SoTA распознавания речи

Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам!

Он предварительно обучен на более чем 1 миллионе часов общедоступных наборов речевых данных.

Его скрытые состояния также могут использоваться с k-средними для семантической речевой токенизации.

▪️ HF: https://huggingface.co/espnet/xeus
▪️ Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2

@Devsp — Подписаться

2.54K views12:07

Data Science | Machinelearning [ru]

🖥 Самые интересные публикации за последние дни:

• ESPNet XEUS - новая SoTA распознавания речи

• Непреодолимая легкость повышения утилизации GPU

• Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени

• SPPO — инструмент оптимизации предпочтений языковой моделью

2.51K views17:07

Data Science | Machinelearning [ru]

🌟CriticGPT — модель на основе GPT-4, которая помогает увидеть ошибки в ответах ChatGPT

CriticGPT, модель на основе GPT-4, пишет критические замечания по ответам ChatGPT, чтобы помочь тренерам-людям заметить ошибки во время RLHF.

Ключевой частью RLHF является сбор сравнений, в которых люди, называемые тренерами ИИ, оценивают различные ответы ChatGPT по отношению друг к другу.

🟡Блог-пост OpenAI
🟡Статья

@Devsp — Подписаться

2.7K views12:07

Data Science | Machinelearning [ru]

👾Как быстро растут нейросети: прогресс Stable Diffusion за все время

В этой статье на примере множества картинок сравним локальные «чистые» модели SD и «закрытые» сервисы с Stable Diffusion 3, а также выясним, стоит ли платить за новую модель.

Читать...

2.61K views15:37

Data Science | Machinelearning [ru]

⚡️ InternLM представила XComposer-2.5 - мультимодальную 7B VLM с увеличенным контекстом для ввода и вывода

InternLM-XComposer-2.5 отлично справляется с различными приложениями для понимания и композиции текста и изображений, достигая возможностей уровня GPT-4V с всего лишь 7B LLM-бэкэндом.

IXC-2.5 обучается с 24K перемежающихся контекстов изображения и текста, он может легко расширяться до 96K длинных контекстов с помощью экстраполяции RoPE.

Эта возможность длинных контекстов позволяет IXC-2.5 исключительно хорошо выполнять задачи, требующие обширных входных и выходных контекстов.

🖥GitHub
🟡Arxiv
🟡Model
🟡Demo
📺 Demo video

@Devsp — Подписаться

2.69K views12:08

Data Science | Machinelearning [ru]

🌟 Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду. Доклад Яндекса

В этой статье автор подробно рассказал о том, какие нестандартные решения приняли разработчики для оптимизации “Баннерной крутилки”, как устроены стадии отбора документов и какое участие принимает ML в процессе работы.

Читать…

Хабр

«Баннерная крутилка» — один из самых высоконагруженных сервисов в Яндексе. Он умеет переживать 700 тысяч RPS, а иногда и больше. Каждый раз, когда приходит запрос, крутилка...

2.66K views15:07

Data Science | Machinelearning [ru]

🤖ML-алгоритмы против хакеров: как поведенческая аналитика меняет правила игры в кибербезопасности

В этой статье я расскажу, что делает модуль BAD не просто новым инструментом, а полноценным игроком в вашей команде кибербезопасности.

Читать...

2.54K views17:07

Data Science | Machinelearning [ru]

🌟Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме

LazyDiffusion — это диффузионный трансформер, который очень быстро генерирует объекты по промпту в области, заданной маской.

Генерируются только пиксели под маской, и время выполнения зависит больше от размера маски, чем от размера изображения.

🟡Страничка Lazy Diffusion
🟡Arxiv

@Devsp — Подписаться

1:38

2.72K views12:07

Data Science | Machinelearning [ru]

🧐Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей

В этой статье делюсь особенностями разработанного решения и рассматриваю реализуемые им задачи.

Читать...

2.75K views17:07

Data Science | Machinelearning [ru]

🌟Arcee Agent 7B — свежая модель на базе Qwen2-7B

Arcee Agent — это передовая модель языка параметров 7B, специально разработанная для вызова функций и использования инструментов.

Инициализированная с Qwen2-7B, она конкурирует по производительности с гораздо более крупными моделями, сохраняя при этом эффективность и скорость.

Эта модель особенно подходит для разработчиков, исследователей и предприятий, стремящихся реализовать сложные решения на основе ИИ без вычислительных издержек более крупных языковых моделей.

🤗 Hugging Face

@Devsp — Подписаться

2.71K views12:07

Data Science | Machinelearning [ru]

🖥 Самые интересные публикации за последние дни:

• Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей

• ML-алгоритмы против хакеров: как поведенческая аналитика меняет правила игры в кибербезопасности

• Как быстро растут нейросети: прогресс Stable Diffusion за все время

• Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме

2.68K views17:08

Data Science | Machinelearning [ru]

⚡️Обновление nanoLLaVA-1.5 1B

На днях обновилась Vision-Language модель nanoLLaVA-1.5 1B для работы на edge девайсах.

nanoLLaVA-1.5 — это «маленькая, но мощная» модель языка видения 1B, разработанная для эффективной работы на периферийных устройствах.

Значительно улучшилась производительность по сравнению с v1.0, при этом размер остался таким же небольшим, что очень удобно для многих применений

🤗 Hugging Face
🖥Github

@Devsp — Подписаться

2.79K views12:07

Data Science | Machinelearning [ru]

👩‍💻Уже пора программировать с помощью LLM или пока рановато?

В этой статье я буду делать с помощью LLM рефакторинг двух образцов грязного кода и анализ результатов.

Читать...

2.61K views12:07

Data Science | Machinelearning [ru]

🌟 GeoWizard — новая модель для оценки 3D-параметров изображений

GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно.

Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.

Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.

🟡Страничка GeoWizard
🖥GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡Hugging Face
🟡Arxiv

@Devsp — Подписаться

2.64K views17:07

Data Science | Machinelearning [ru]

⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения

TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.

Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.

Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.

🟡Arxiv
🖥GitHub for Pytorch
🖥GitHub for Jax

@Devsp — Подписаться

2.86K views15:02

Data Science | Machinelearning [ru]

🖥 Самые интересные публикации за последние дни:

• GeoWizard — новая модель для оценки 3D-параметров изображений

• Уже пора программировать с помощью LLM или пока рановато?

• Обновление nanoLLaVA-1.5 1B

2.58K views17:07

About

Blog

Apps

Platform