🖥 Самые интересные публикации за последние дни:
• EvTexture — новый метод апскейлинга видео
• SEE-2-SOUND — метод генерации сложного пространственного звука на основе изображений и видео
• MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией
• EvTexture — новый метод апскейлинга видео
• SEE-2-SOUND — метод генерации сложного пространственного звука на основе изображений и видео
• MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией
🌟 Простой способ переводить экраны приложений на русский по одному двойному тапу
В этой статье вы узнаете, как настроить перевод экрана любых приложений с незнакомых языков на русский на айфоне.
Читать…
@Devsp — Подписаться
В этой статье вы узнаете, как настроить перевод экрана любых приложений с незнакомых языков на русский на айфоне.
Читать…
@Devsp — Подписаться
👏Text-Animator — метод генерации видео с текстом в кадрах
С текстом у генеративных моделей до недавнего времени были большие проблемы, как и с пальцами.
Сейчас уже ситуация улучшилась, но только для моделей, создающих изображения.
Text-Animator содержит модуль внедрения текста для точного отображения структур визуального текста в сгенерированных видео.
🟡Страничка Text-Animator
🟡Arxiv
@Devsp — Подписаться
С текстом у генеративных моделей до недавнего времени были большие проблемы, как и с пальцами.
Сейчас уже ситуация улучшилась, но только для моделей, создающих изображения.
Text-Animator содержит модуль внедрения текста для точного отображения структур визуального текста в сгенерированных видео.
🟡Страничка Text-Animator
🟡Arxiv
@Devsp — Подписаться
🌟Cambrian-1 — семейство мультимодальных LLM, ориентированных на CV-задачи
Cambrian-1, семейство мультимодальных LLM (MLLM), разработанных с использованием подхода, ориентированного на зрение.
🟡Страничка Cambrian-1
🖥GitHub
🤗 Hugging Face
@Devsp — Подписаться
Cambrian-1, семейство мультимодальных LLM (MLLM), разработанных с использованием подхода, ориентированного на зрение.
🟡Страничка Cambrian-1
🖥GitHub
🤗 Hugging Face
@Devsp — Подписаться
🐍 Scikit-LLM — библиотека Python, призванная упростить разработку сложных и готовых к продакшену конвейеров NLP
Scikit-LLM может взаимодействовать с различными провайдерами LLM, независимо от того, работают ли они локально (например, GPT4All) или в облаке (включая Azure, OpenAI и Vertex AI).
Scikit-LLM поддерживает широкий спектр задач анализа текста, включая классификацию, анализ эмоциональной составляющей и т.д.
🖥GitHub
🟡Доки
@Devsp — Подписаться
Scikit-LLM может взаимодействовать с различными провайдерами LLM, независимо от того, работают ли они локально (например, GPT4All) или в облаке (включая Azure, OpenAI и Vertex AI).
Scikit-LLM поддерживает широкий спектр задач анализа текста, включая классификацию, анализ эмоциональной составляющей и т.д.
🖥GitHub
🟡Доки
@Devsp — Подписаться
🦾 EAGLE — метод, позволяющий ускорить генерацию ответов от LLM
EAGLE позволяет экстраполировать вектора контекстных признаков второго верхнего слоя LLM, что значительно повышает эффективность генерации.
EAGLE в 2 раза быстрее Lookahead (13B), и в 1.6 раз быстрее, чем Medusa (13B).
🤗 Hugging Face
🖥GitHub
@Devsp — Подписаться
EAGLE позволяет экстраполировать вектора контекстных признаков второго верхнего слоя LLM, что значительно повышает эффективность генерации.
EAGLE в 2 раза быстрее Lookahead (13B), и в 1.6 раз быстрее, чем Medusa (13B).
🤗 Hugging Face
🖥GitHub
@Devsp — Подписаться
🖥Unstructured — библиотека Python для предобработки сырых данных
Библиотека unstructured предоставляет компоненты с открытым исходным кодом для приема и предварительной обработки изображений и текстовых документов, таких как PDF-файлы, HTML, документы Word и многие другие.
Unstructured модульные функции и соединители образуют целостную систему, которая упрощает прием и предварительную обработку данных, делая ее адаптируемой к различным платформам и эффективной в преобразовании неструктурированных данных в структурированные выходные данные.
🖥GitHub
🟡Доки
@Devsp — Подписаться
Библиотека unstructured предоставляет компоненты с открытым исходным кодом для приема и предварительной обработки изображений и текстовых документов, таких как PDF-файлы, HTML, документы Word и многие другие.
Unstructured модульные функции и соединители образуют целостную систему, которая упрощает прием и предварительную обработку данных, делая ее адаптируемой к различным платформам и эффективной в преобразовании неструктурированных данных в структурированные выходные данные.
🖥GitHub
🟡Доки
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• Unstructured — библиотека Python для предобработки сырых данных
• EAGLE — метод, позволяющий ускорить генерацию ответов от LLM
• «Midjourney на коленке, но теперь с S3». Как хранить генерации с промптами в объектном хранилище
• Unstructured — библиотека Python для предобработки сырых данных
• EAGLE — метод, позволяющий ускорить генерацию ответов от LLM
• «Midjourney на коленке, но теперь с S3». Как хранить генерации с промптами в объектном хранилище
🌟SPPO — инструмент оптимизации предпочтений языковой моделью
SPPO может значительно повысить производительность LLM без сильных внешних сигналов, таких как ответы или предпочтения от GPT-4.
Он может превзойти модель, обученную с помощью итеративной прямой оптимизации предпочтений (DPO), среди прочих методов.
🖥GitHub
🤗 Hugging Face
🟡Arxiv
@Devsp — Подписаться
SPPO может значительно повысить производительность LLM без сильных внешних сигналов, таких как ответы или предпочтения от GPT-4.
Он может превзойти модель, обученную с помощью итеративной прямой оптимизации предпочтений (DPO), среди прочих методов.
🖥GitHub
🤗 Hugging Face
🟡Arxiv
@Devsp — Подписаться
🤩 Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени
PAB — это первый подход к созданию видео на основе диффузионных трансформеров в реальном времени, обеспечивающий качество без потерь и не требующий обучения.
PAB оптимизирует работу с механизмом внимания, что позволяет достичь 21.6 FPS с 10.6-кратным ускорением для популярных моделей генерации видео на основе DiT, включая Open-Sora, Open-Sora-Plan и Latte.
🟡Страничка Pyramid Attention Broadcast
🖥GitHub
@Devsp — Подписаться
PAB — это первый подход к созданию видео на основе диффузионных трансформеров в реальном времени, обеспечивающий качество без потерь и не требующий обучения.
PAB оптимизирует работу с механизмом внимания, что позволяет достичь 21.6 FPS с 10.6-кратным ускорением для популярных моделей генерации видео на основе DiT, включая Open-Sora, Open-Sora-Plan и Latte.
🟡Страничка Pyramid Attention Broadcast
🖥GitHub
@Devsp — Подписаться
🗣 MARS 5 TTS: новая модель от компании Camb AI для генерации голоса и преобразования текста в речь с открытым исходным кодом
Модель следует двухэтапному конвейеру AR-NAR с принципиально новым компонентом NAR.
Всего с 5 секундами аудио и фрагментом текста MARS5 может генерировать речь даже для сложных и разнообразных просодических сценариев, таких как спортивные комментарии, аниме и многое другое.
Идентификация говорящего определяется с помощью файла аудиоссылки длительностью от 2 до 12 секунд, при этом длина около 6 секунд дает оптимальные результаты.
▪️Github: https://github.com/Camb-ai/MARS5-TTS
▪️Demo: https://www.camb.ai/
▪️HF: https://huggingface.co/CAMB-AI/MARS5-TTS
▪️Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb
@Devsp — Подписаться
Модель следует двухэтапному конвейеру AR-NAR с принципиально новым компонентом NAR.
Всего с 5 секундами аудио и фрагментом текста MARS5 может генерировать речь даже для сложных и разнообразных просодических сценариев, таких как спортивные комментарии, аниме и многое другое.
Идентификация говорящего определяется с помощью файла аудиоссылки длительностью от 2 до 12 секунд, при этом длина около 6 секунд дает оптимальные результаты.
▪️Github: https://github.com/Camb-ai/MARS5-TTS
▪️Demo: https://www.camb.ai/
▪️HF: https://huggingface.co/CAMB-AI/MARS5-TTS
▪️Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb
@Devsp — Подписаться
🔥ESPNet XEUS - новая SoTA распознавания речи
Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам!
Он предварительно обучен на более чем 1 миллионе часов общедоступных наборов речевых данных.
Его скрытые состояния также могут использоваться с k-средними для семантической речевой токенизации.
▪️ HF: https://huggingface.co/espnet/xeus
▪️ Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2
@Devsp — Подписаться
Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам!
Он предварительно обучен на более чем 1 миллионе часов общедоступных наборов речевых данных.
Его скрытые состояния также могут использоваться с k-средними для семантической речевой токенизации.
▪️ HF: https://huggingface.co/espnet/xeus
▪️ Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• ESPNet XEUS - новая SoTA распознавания речи
• Непреодолимая легкость повышения утилизации GPU
• Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени
• SPPO — инструмент оптимизации предпочтений языковой моделью
• ESPNet XEUS - новая SoTA распознавания речи
• Непреодолимая легкость повышения утилизации GPU
• Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени
• SPPO — инструмент оптимизации предпочтений языковой моделью
🌟CriticGPT — модель на основе GPT-4, которая помогает увидеть ошибки в ответах ChatGPT
CriticGPT, модель на основе GPT-4, пишет критические замечания по ответам ChatGPT, чтобы помочь тренерам-людям заметить ошибки во время RLHF.
Ключевой частью RLHF является сбор сравнений, в которых люди, называемые тренерами ИИ, оценивают различные ответы ChatGPT по отношению друг к другу.
🟡Блог-пост OpenAI
🟡Статья
@Devsp — Подписаться
CriticGPT, модель на основе GPT-4, пишет критические замечания по ответам ChatGPT, чтобы помочь тренерам-людям заметить ошибки во время RLHF.
Ключевой частью RLHF является сбор сравнений, в которых люди, называемые тренерами ИИ, оценивают различные ответы ChatGPT по отношению друг к другу.
🟡Блог-пост OpenAI
🟡Статья
@Devsp — Подписаться
⚡️ InternLM представила XComposer-2.5 - мультимодальную 7B VLM с увеличенным контекстом для ввода и вывода
InternLM-XComposer-2.5 отлично справляется с различными приложениями для понимания и композиции текста и изображений, достигая возможностей уровня GPT-4V с всего лишь 7B LLM-бэкэндом.
IXC-2.5 обучается с 24K перемежающихся контекстов изображения и текста, он может легко расширяться до 96K длинных контекстов с помощью экстраполяции RoPE.
Эта возможность длинных контекстов позволяет IXC-2.5 исключительно хорошо выполнять задачи, требующие обширных входных и выходных контекстов.
🖥GitHub
🟡Arxiv
🟡Model
🟡Demo
📺 Demo video
@Devsp — Подписаться
InternLM-XComposer-2.5 отлично справляется с различными приложениями для понимания и композиции текста и изображений, достигая возможностей уровня GPT-4V с всего лишь 7B LLM-бэкэндом.
IXC-2.5 обучается с 24K перемежающихся контекстов изображения и текста, он может легко расширяться до 96K длинных контекстов с помощью экстраполяции RoPE.
Эта возможность длинных контекстов позволяет IXC-2.5 исключительно хорошо выполнять задачи, требующие обширных входных и выходных контекстов.
🖥GitHub
🟡Arxiv
🟡Model
🟡Demo
📺 Demo video
@Devsp — Подписаться
🌟 Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду. Доклад Яндекса
В этой статье автор подробно рассказал о том, какие нестандартные решения приняли разработчики для оптимизации “Баннерной крутилки”, как устроены стадии отбора документов и какое участие принимает ML в процессе работы.
Читать…
В этой статье автор подробно рассказал о том, какие нестандартные решения приняли разработчики для оптимизации “Баннерной крутилки”, как устроены стадии отбора документов и какое участие принимает ML в процессе работы.
Читать…
Хабр
Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду. Доклад Яндекса
«Баннерная крутилка» — один из самых высоконагруженных сервисов в Яндексе. Он умеет переживать 700 тысяч RPS, а иногда и больше. Каждый раз, когда приходит запрос, крутилка...
🌟Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме
LazyDiffusion — это диффузионный трансформер, который очень быстро генерирует объекты по промпту в области, заданной маской.
Генерируются только пиксели под маской, и время выполнения зависит больше от размера маски, чем от размера изображения.
🟡Страничка Lazy Diffusion
🟡Arxiv
@Devsp — Подписаться
LazyDiffusion — это диффузионный трансформер, который очень быстро генерирует объекты по промпту в области, заданной маской.
Генерируются только пиксели под маской, и время выполнения зависит больше от размера маски, чем от размера изображения.
🟡Страничка Lazy Diffusion
🟡Arxiv
@Devsp — Подписаться