🌟Modded-NanoGPT — позволяет добиться качества GPT-2 (124M) при обучении всего на 5B лексем
Modded-NanoGPT позволяет:
— обучать в 2 раза эффективнее (требуется всего 5B лексем вместо 10B для достижения той же точности)
— имеет более простой код (446 строк вместо 858)
🖥GitHub
@Devsp — Подписаться
Modded-NanoGPT позволяет:
— обучать в 2 раза эффективнее (требуется всего 5B лексем вместо 10B для достижения той же точности)
— имеет более простой код (446 строк вместо 858)
🖥GitHub
@Devsp — Подписаться
😎 Hermes-2-Theta-Llama-3-70B — комбо на основе Hermes 2 Pro и Llama-3 Instruct
Hermes-2 Θ (Theta) 70B — это экспериментальная модель, созданная компанией Nous Research в сотрудничестве с Arcee AI (командой, создавшей MergeKit) на основе Hermes 2 Pro и Llama-3 Instruct.
🤗 Hugging Face
@Devsp — Подписаться
Hermes-2 Θ (Theta) 70B — это экспериментальная модель, созданная компанией Nous Research в сотрудничестве с Arcee AI (командой, создавшей MergeKit) на основе Hermes 2 Pro и Llama-3 Instruct.
🤗 Hugging Face
@Devsp — Подписаться
🌟ExVideo — техника тюнинга, позволяющая улучшить возможности моделей генерации видео
ExVideo позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.
🟡Страничка ExVideo
🖥GitHub
🟡Hugging Face
🟡Arxiv
@Devsp — Подписаться
ExVideo позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.
🟡Страничка ExVideo
🖥GitHub
🟡Hugging Face
🟡Arxiv
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• StreamSpeech: Мощная модель синхронного перевода речи
• Open Interpreter — полное управление компьютером при помощи запросов на естественном языке
• Он победил LLM RAG: реализуем BM25+ с самых азов
• StreamSpeech: Мощная модель синхронного перевода речи
• Open Interpreter — полное управление компьютером при помощи запросов на естественном языке
• Он победил LLM RAG: реализуем BM25+ с самых азов
Работаете в области проектирования ПО и хотите ускорить свой профессиональный рост? Выйти на новый уровень будет гораздо проще с онлайн-магистратурой Яндекса и ИТМО «ПО высоконагруженных систем». Поступив на программу, вы с первого семестра погрузитесь в работу над реальными задачами из индустрии. Собирая ценные кейсы в портфолио, вы прокачаете навыки проектирования сложных систем и управления крупными проектами. Всё это — онлайн, из любой точки мира!
Программа подходит как выпускникам профильных вузов и стажёрам, так и специалистам с опытом. Первым можно будет пройти двухлетний стандартный трек, а вторым — ускоренный, изучая интересующие дисциплины на протяжении года.
Подайте заявку на магистратуру и выйдите на новый уровень в IT!
Программа подходит как выпускникам профильных вузов и стажёрам, так и специалистам с опытом. Первым можно будет пройти двухлетний стандартный трек, а вторым — ускоренный, изучая интересующие дисциплины на протяжении года.
Подайте заявку на магистратуру и выйдите на новый уровень в IT!
⭐️MorpheuS — реконструкция поверхности с обзором 360° по монокулярному RGB-D видео
MorpheuS — это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео.
Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели.
🟡Страничка MorpheuS
🟡Arxiv
🖥GitHub
@Devsp — Подписаться
MorpheuS — это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео.
Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели.
🟡Страничка MorpheuS
🟡Arxiv
🖥GitHub
@Devsp — Подписаться
🌟EvTexture — новый метод апскейлинга видео
В методе EvTexture используется отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.
🟡Страничка EvTexture
🖥GitHub
🟡Arxiv
@Devsp — Подписаться
В методе EvTexture используется отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.
🟡Страничка EvTexture
🖥GitHub
🟡Arxiv
@Devsp — Подписаться
🌟SEE-2-SOUND — метод генерации сложного пространственного звука на основе изображений и видео
SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео.
Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.
🟡Страничка SEE-2-SOUND
🖥GitHub
🟡Hugging Face
🟡Arxiv
@Devsp — Подписаться
SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео.
Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.
🟡Страничка SEE-2-SOUND
🖥GitHub
🟡Hugging Face
🟡Arxiv
@Devsp — Подписаться
👁🗨 LongVA: Long Context Transfer from Language to Vision
LongVA может обрабатывать 2000 кадров или более 200 тысяч визуальных токенов.
Он обеспечивает самые современные характеристики видео-MME среди моделей 7B.
▪Github: https://github.com/EvolvingLMMs-Lab/LongVA
▪Paper: https://arxiv.org/abs/2406.16852
▪Project: https://lmms-lab.github.io/posts/longva/
▪Demo: https://longva-demo.lmms-lab.com/
@Devsp — Подписаться
LongVA может обрабатывать 2000 кадров или более 200 тысяч визуальных токенов.
Он обеспечивает самые современные характеристики видео-MME среди моделей 7B.
▪Github: https://github.com/EvolvingLMMs-Lab/LongVA
▪Paper: https://arxiv.org/abs/2406.16852
▪Project: https://lmms-lab.github.io/posts/longva/
▪Demo: https://longva-demo.lmms-lab.com/
@Devsp — Подписаться
🌟MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией
MG-LLaVA, инновационная MLLM, которая расширяет возможности визуальной обработки модели за счет включения многоуровневого потока визуализации, который включает в себя функции низкого разрешения, высокого разрешения и объектно-ориентированные функции.
Обучаясь исключительно на общедоступных мультимодальных данных посредством настройки инструкций, MG-LLaVA демонстрирует исключительные навыки восприятия.
🟡Страничка MG-LLaVA
🖥GitHub
@Devsp — Подписаться
MG-LLaVA, инновационная MLLM, которая расширяет возможности визуальной обработки модели за счет включения многоуровневого потока визуализации, который включает в себя функции низкого разрешения, высокого разрешения и объектно-ориентированные функции.
Обучаясь исключительно на общедоступных мультимодальных данных посредством настройки инструкций, MG-LLaVA демонстрирует исключительные навыки восприятия.
🟡Страничка MG-LLaVA
🖥GitHub
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• EvTexture — новый метод апскейлинга видео
• SEE-2-SOUND — метод генерации сложного пространственного звука на основе изображений и видео
• MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией
• EvTexture — новый метод апскейлинга видео
• SEE-2-SOUND — метод генерации сложного пространственного звука на основе изображений и видео
• MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией
🌟 Простой способ переводить экраны приложений на русский по одному двойному тапу
В этой статье вы узнаете, как настроить перевод экрана любых приложений с незнакомых языков на русский на айфоне.
Читать…
@Devsp — Подписаться
В этой статье вы узнаете, как настроить перевод экрана любых приложений с незнакомых языков на русский на айфоне.
Читать…
@Devsp — Подписаться
👏Text-Animator — метод генерации видео с текстом в кадрах
С текстом у генеративных моделей до недавнего времени были большие проблемы, как и с пальцами.
Сейчас уже ситуация улучшилась, но только для моделей, создающих изображения.
Text-Animator содержит модуль внедрения текста для точного отображения структур визуального текста в сгенерированных видео.
🟡Страничка Text-Animator
🟡Arxiv
@Devsp — Подписаться
С текстом у генеративных моделей до недавнего времени были большие проблемы, как и с пальцами.
Сейчас уже ситуация улучшилась, но только для моделей, создающих изображения.
Text-Animator содержит модуль внедрения текста для точного отображения структур визуального текста в сгенерированных видео.
🟡Страничка Text-Animator
🟡Arxiv
@Devsp — Подписаться
🌟Cambrian-1 — семейство мультимодальных LLM, ориентированных на CV-задачи
Cambrian-1, семейство мультимодальных LLM (MLLM), разработанных с использованием подхода, ориентированного на зрение.
🟡Страничка Cambrian-1
🖥GitHub
🤗 Hugging Face
@Devsp — Подписаться
Cambrian-1, семейство мультимодальных LLM (MLLM), разработанных с использованием подхода, ориентированного на зрение.
🟡Страничка Cambrian-1
🖥GitHub
🤗 Hugging Face
@Devsp — Подписаться
🐍 Scikit-LLM — библиотека Python, призванная упростить разработку сложных и готовых к продакшену конвейеров NLP
Scikit-LLM может взаимодействовать с различными провайдерами LLM, независимо от того, работают ли они локально (например, GPT4All) или в облаке (включая Azure, OpenAI и Vertex AI).
Scikit-LLM поддерживает широкий спектр задач анализа текста, включая классификацию, анализ эмоциональной составляющей и т.д.
🖥GitHub
🟡Доки
@Devsp — Подписаться
Scikit-LLM может взаимодействовать с различными провайдерами LLM, независимо от того, работают ли они локально (например, GPT4All) или в облаке (включая Azure, OpenAI и Vertex AI).
Scikit-LLM поддерживает широкий спектр задач анализа текста, включая классификацию, анализ эмоциональной составляющей и т.д.
🖥GitHub
🟡Доки
@Devsp — Подписаться
🦾 EAGLE — метод, позволяющий ускорить генерацию ответов от LLM
EAGLE позволяет экстраполировать вектора контекстных признаков второго верхнего слоя LLM, что значительно повышает эффективность генерации.
EAGLE в 2 раза быстрее Lookahead (13B), и в 1.6 раз быстрее, чем Medusa (13B).
🤗 Hugging Face
🖥GitHub
@Devsp — Подписаться
EAGLE позволяет экстраполировать вектора контекстных признаков второго верхнего слоя LLM, что значительно повышает эффективность генерации.
EAGLE в 2 раза быстрее Lookahead (13B), и в 1.6 раз быстрее, чем Medusa (13B).
🤗 Hugging Face
🖥GitHub
@Devsp — Подписаться
🖥Unstructured — библиотека Python для предобработки сырых данных
Библиотека unstructured предоставляет компоненты с открытым исходным кодом для приема и предварительной обработки изображений и текстовых документов, таких как PDF-файлы, HTML, документы Word и многие другие.
Unstructured модульные функции и соединители образуют целостную систему, которая упрощает прием и предварительную обработку данных, делая ее адаптируемой к различным платформам и эффективной в преобразовании неструктурированных данных в структурированные выходные данные.
🖥GitHub
🟡Доки
@Devsp — Подписаться
Библиотека unstructured предоставляет компоненты с открытым исходным кодом для приема и предварительной обработки изображений и текстовых документов, таких как PDF-файлы, HTML, документы Word и многие другие.
Unstructured модульные функции и соединители образуют целостную систему, которая упрощает прием и предварительную обработку данных, делая ее адаптируемой к различным платформам и эффективной в преобразовании неструктурированных данных в структурированные выходные данные.
🖥GitHub
🟡Доки
@Devsp — Подписаться
🖥 Самые интересные публикации за последние дни:
• Unstructured — библиотека Python для предобработки сырых данных
• EAGLE — метод, позволяющий ускорить генерацию ответов от LLM
• «Midjourney на коленке, но теперь с S3». Как хранить генерации с промптами в объектном хранилище
• Unstructured — библиотека Python для предобработки сырых данных
• EAGLE — метод, позволяющий ускорить генерацию ответов от LLM
• «Midjourney на коленке, но теперь с S3». Как хранить генерации с промптами в объектном хранилище
🌟SPPO — инструмент оптимизации предпочтений языковой моделью
SPPO может значительно повысить производительность LLM без сильных внешних сигналов, таких как ответы или предпочтения от GPT-4.
Он может превзойти модель, обученную с помощью итеративной прямой оптимизации предпочтений (DPO), среди прочих методов.
🖥GitHub
🤗 Hugging Face
🟡Arxiv
@Devsp — Подписаться
SPPO может значительно повысить производительность LLM без сильных внешних сигналов, таких как ответы или предпочтения от GPT-4.
Он может превзойти модель, обученную с помощью итеративной прямой оптимизации предпочтений (DPO), среди прочих методов.
🖥GitHub
🤗 Hugging Face
🟡Arxiv
@Devsp — Подписаться
🤩 Pyramid Attention Broadcast — подход, позволяющий генерировать видео в режиме реального времени
PAB — это первый подход к созданию видео на основе диффузионных трансформеров в реальном времени, обеспечивающий качество без потерь и не требующий обучения.
PAB оптимизирует работу с механизмом внимания, что позволяет достичь 21.6 FPS с 10.6-кратным ускорением для популярных моделей генерации видео на основе DiT, включая Open-Sora, Open-Sora-Plan и Latte.
🟡Страничка Pyramid Attention Broadcast
🖥GitHub
@Devsp — Подписаться
PAB — это первый подход к созданию видео на основе диффузионных трансформеров в реальном времени, обеспечивающий качество без потерь и не требующий обучения.
PAB оптимизирует работу с механизмом внимания, что позволяет достичь 21.6 FPS с 10.6-кратным ускорением для популярных моделей генерации видео на основе DiT, включая Open-Sora, Open-Sora-Plan и Latte.
🟡Страничка Pyramid Attention Broadcast
🖥GitHub
@Devsp — Подписаться