💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.
🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA
🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA
📕Paper: https://arxiv.org/abs/2311.10122v1
⏩Dataset: https://paperswithcode.com/dataset/mmbench
@Devsp — Подписаться
Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.
🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA
🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA
📕Paper: https://arxiv.org/abs/2311.10122v1
⏩Dataset: https://paperswithcode.com/dataset/mmbench
@Devsp — Подписаться
🎥 Camera control for text-to-video.
CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.
Результаты экспериментов демонстрируют эффективность CameraCtrlв достижении точного и адаптируемого к предметной области управления камерой, что знаменует собой шаг вперед в стремлении к динамичному и индивидуальному видеоповествованию на основе текстовых данных и позы камеры.
▪️Github: https://github.com/hehao13/CameraCtrl
▪️Paper: http://arxiv.org/abs/2404.02101
▪️Project: https://hehao13.github.io/projects-CameraCtrl/
▪️Weights: https://huggingface.co/hehao13/CameraCtrl/tree/main
@Devsp — Подписаться
CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.
Результаты экспериментов демонстрируют эффективность CameraCtrlв достижении точного и адаптируемого к предметной области управления камерой, что знаменует собой шаг вперед в стремлении к динамичному и индивидуальному видеоповествованию на основе текстовых данных и позы камеры.
▪️Github: https://github.com/hehao13/CameraCtrl
▪️Paper: http://arxiv.org/abs/2404.02101
▪️Project: https://hehao13.github.io/projects-CameraCtrl/
▪️Weights: https://huggingface.co/hehao13/CameraCtrl/tree/main
@Devsp — Подписаться
🌦 Makani: Massively parallel training of machine-learning based weather and climate models
Makani — это экспериментальная библиотека, предназначенная для исследования и разработки моделей погоды и климата на основе машинного обучения в PyTorch.
Среди прочего, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.
🐱Github: https://github.com/NVIDIA/makani
📕Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/
⏩Dataset: https://github.com/NVIDIA/makani/tree/main/datasets
@Devsp — Подписаться
Makani — это экспериментальная библиотека, предназначенная для исследования и разработки моделей погоды и климата на основе машинного обучения в PyTorch.
Среди прочего, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.
🐱Github: https://github.com/NVIDIA/makani
📕Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/
⏩Dataset: https://github.com/NVIDIA/makani/tree/main/datasets
@Devsp — Подписаться
Наводим порядок в данных с экспертами Х5 Tech Talk !🤟🏻
С каждым годом данных становится больше, а ориентироваться в них сложнее. X5 Tech совместно с сообществом dbt & modern data stack решили обсудить метод решения этой проблемы — каталог данных.
11 апреля предлагаем послушать про успешные внедрения последних лет открытых каталогов данных на базе OpenMetadata и DataHub с месячной аудиторией от десятков специалистов машинного обучения до тысяч бизнес пользователей.
🔔Не пропусти!
11 апреля, 19:00
ОНЛАЙН
Зарегистрироваться
С каждым годом данных становится больше, а ориентироваться в них сложнее. X5 Tech совместно с сообществом dbt & modern data stack решили обсудить метод решения этой проблемы — каталог данных.
11 апреля предлагаем послушать про успешные внедрения последних лет открытых каталогов данных на базе OpenMetadata и DataHub с месячной аудиторией от десятков специалистов машинного обучения до тысяч бизнес пользователей.
🔔Не пропусти!
11 апреля, 19:00
ОНЛАЙН
Зарегистрироваться
Реклама. ООО "Корпоративный центр ИКС 5", ОГРН 1077760250941JaxMARL
Бенчмарки играют важную роль в разработке алгоритмов машинного обучения. Например, исследования в области обучения с подкреплением (RL) в значительной степени зависят от них. Однако модели RL традиционно запускаются на центральном процессоре, что ограничивает их масштабируемость.
В данной работе представлен JaxMARL - первый проект с открытым исходным кодом, сочетающую простоту использования с эффективностью работы на GPU.
JaxMARL сочетает в себе простоту использования с эффективностью использования графического процессора и поддерживает широкий спектр часто используемых сред MARL, а также популярные базовые алгоритмы.
Обучающий конвейер на основе JAX работает в 12500 раз быстрее, чем существующие подходы.
🐱 Github: https://github.com/flairox/jaxmarl
📕Paper: https://arxiv.org/pdf/2311.10090v1.pdf
⏩Dataset: https://paperswithcode.com/dataset/mujoco
@Devsp — Подписаться
Бенчмарки играют важную роль в разработке алгоритмов машинного обучения. Например, исследования в области обучения с подкреплением (RL) в значительной степени зависят от них. Однако модели RL традиционно запускаются на центральном процессоре, что ограничивает их масштабируемость.
В данной работе представлен JaxMARL - первый проект с открытым исходным кодом, сочетающую простоту использования с эффективностью работы на GPU.
JaxMARL сочетает в себе простоту использования с эффективностью использования графического процессора и поддерживает широкий спектр часто используемых сред MARL, а также популярные базовые алгоритмы.
Обучающий конвейер на основе JAX работает в 12500 раз быстрее, чем существующие подходы.
🐱 Github: https://github.com/flairox/jaxmarl
📕Paper: https://arxiv.org/pdf/2311.10090v1.pdf
⏩Dataset: https://paperswithcode.com/dataset/mujoco
@Devsp — Подписаться
🇺🇿 Introducing Emu Video and Emu Edit, our latest generative AI research milestones
Мета показали свои новые нейросети Emu Video и Emu Edit.
Первая — высококачественный генератор видео, а вот вторая интересней — это натоящий редактор ваших фото текстом, без выделения областей, сложных интерфейсов и прочего. Просто пишете, что хотите поменять и как, а нейросеть — выполняет. Демо выглядит потрясающе.
Технологии Emu лежат в основе многих наших возможностей генеративного искусственного интеллекта, некоторых инструментов редактирования изображений искусственного интеллекта для Instagram, которые позволяют делать фотографии и менять их визуальный стиль или фон, а также функции Imagine в Meta AI, которая позволяет создавать фотореалистичные изображения непосредственно в сообщениях с помощью этой технологии.
🚀 Blog: https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/
⭐️Project page: https://emu-edit.metademolab.com
📌Paper: https://emu-edit.metademolab.com/assets/emu_edit.pdf
@Devsp — Подписаться
Мета показали свои новые нейросети Emu Video и Emu Edit.
Первая — высококачественный генератор видео, а вот вторая интересней — это натоящий редактор ваших фото текстом, без выделения областей, сложных интерфейсов и прочего. Просто пишете, что хотите поменять и как, а нейросеть — выполняет. Демо выглядит потрясающе.
Технологии Emu лежат в основе многих наших возможностей генеративного искусственного интеллекта, некоторых инструментов редактирования изображений искусственного интеллекта для Instagram, которые позволяют делать фотографии и менять их визуальный стиль или фон, а также функции Imagine в Meta AI, которая позволяет создавать фотореалистичные изображения непосредственно в сообщениях с помощью этой технологии.
🚀 Blog: https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/
⭐️Project page: https://emu-edit.metademolab.com
📌Paper: https://emu-edit.metademolab.com/assets/emu_edit.pdf
@Devsp — Подписаться
👾Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding
Chat-UniVi - унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления.
Мы используем набор динамических визуальных токенов для единообразного представления изображений и видео. Эта структура представления позволяет модели эффективно использовать ограниченное количество визуальных токенов для одновременного захвата пространственных деталей, необходимых для изображений , и комплексных временных отношений, необходимых для видео.
Chat-UniVi обучается на смешанном наборе данных, содержащем как изображения, так и видео, что позволяет напрямую применять его к задачам, включающим оба носителя, без каких-либо модификаций.
Обширные экспериментальные результаты показывают, что Chat-UniVi, как унифицированная модель, постоянно превосходит даже существующие методы, предназначенные исключительно для изображений или видео.
🐱 Github: https://github.com/pku-yuangroup/chat-univi
📕Paper: https://arxiv.org/abs/2311.08046v1
⏩Dataset: https://paperswithcode.com/dataset/activitynet-qa
@Devsp — Подписаться
Chat-UniVi - унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления.
Мы используем набор динамических визуальных токенов для единообразного представления изображений и видео. Эта структура представления позволяет модели эффективно использовать ограниченное количество визуальных токенов для одновременного захвата пространственных деталей, необходимых для изображений , и комплексных временных отношений, необходимых для видео.
Chat-UniVi обучается на смешанном наборе данных, содержащем как изображения, так и видео, что позволяет напрямую применять его к задачам, включающим оба носителя, без каких-либо модификаций.
Обширные экспериментальные результаты показывают, что Chat-UniVi, как унифицированная модель, постоянно превосходит даже существующие методы, предназначенные исключительно для изображений или видео.
🐱 Github: https://github.com/pku-yuangroup/chat-univi
📕Paper: https://arxiv.org/abs/2311.08046v1
⏩Dataset: https://paperswithcode.com/dataset/activitynet-qa
@Devsp — Подписаться
❤1
✨ Feature Selection for Deep Tabular Models
Основанный на входном градиенте аналог LASSO для нейронных сетей, называемый Deep Lasso, превосходит классические методы выбора признаков при решении сложных задач, таких как выбор из поврежденных признаков или признаков второго порядка.
🐱 Github: https://github.com/vcherepanova/tabular-feature-selection
📕Paper: https://arxiv.org/pdf/2311.05877v1.pdf
⭐Tasks: https://paperswithcode.com/task/feature-selection
@Devsp — Подписаться
Основанный на входном градиенте аналог LASSO для нейронных сетей, называемый Deep Lasso, превосходит классические методы выбора признаков при решении сложных задач, таких как выбор из поврежденных признаков или признаков второго порядка.
🐱 Github: https://github.com/vcherepanova/tabular-feature-selection
📕Paper: https://arxiv.org/pdf/2311.05877v1.pdf
⭐Tasks: https://paperswithcode.com/task/feature-selection
@Devsp — Подписаться
🏆 MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
Большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео.
Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
▪️proj: https://boheumd.github.io/MA-LMM/
▪️repo: https://github.com/boheumd/MA-LMM
▪️abs: https://arxiv.org/abs/2404.05726
@Devsp — Подписаться
Большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео.
Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.
▪️proj: https://boheumd.github.io/MA-LMM/
▪️repo: https://github.com/boheumd/MA-LMM
▪️abs: https://arxiv.org/abs/2404.05726
@Devsp — Подписаться
⚡️ MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens
MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео.
Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео.
MiniGPT4-видео учитывает не только визуальный контент, но и текстовые диалоги, что позволяет модели эффективно отвечать на запросы, включающие как визуальные, так и текстовые компоненты.
Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.
▪️code: https://github.com/Vision-CAIR/MiniGPT4-video
▪️page: https://vision-cair.github.io/MiniGPT4-video/
▪️paper: https://arxiv.org/abs/2404.03413
▪️jupyter: https://github.com/camenduru/MiniGPT4-video-jupyter
@Devsp — Подписаться
MiniGPT4-Video — мультимодальная модель большого языка (LLM), разработанная специально для понимания видео.
Модель способна обрабатывать как временные визуальные, так и текстовые данные, что позволяет ей понимать сложности видео.
MiniGPT4-видео учитывает не только визуальный контент, но и текстовые диалоги, что позволяет модели эффективно отвечать на запросы, включающие как визуальные, так и текстовые компоненты.
Модель превосходит существующие современные методы, регистрируя прирост на 4,22%, 1,13%, 20,82% и 13,1% по тестам MSVD, MSRVTT, TGIF и TVQA соответственно.
▪️code: https://github.com/Vision-CAIR/MiniGPT4-video
▪️page: https://vision-cair.github.io/MiniGPT4-video/
▪️paper: https://arxiv.org/abs/2404.03413
▪️jupyter: https://github.com/camenduru/MiniGPT4-video-jupyter
@Devsp — Подписаться
🌟 Open-Sora-Plan v1.0.0, which significantly enhances video generation quality and text control capabilities.
Open-Sora-Plan версии 1.0.0 - модель генерации, которая может генерировать 10-секундное видео с разрешением 1024 × 1024 со скоростью 24 кадра в секунду.
Этот проект направлен на создание простого и масштабируемого репозитория для воспроизведения Sora.
▪️Github
@Devsp — Подписаться
Open-Sora-Plan версии 1.0.0 - модель генерации, которая может генерировать 10-секундное видео с разрешением 1024 × 1024 со скоростью 24 кадра в секунду.
Этот проект направлен на создание простого и масштабируемого репозитория для воспроизведения Sora.
▪️Github
@Devsp — Подписаться
Forwarded from Яндекс
Как поступить в этом году: учиться в ШАД могут студенты старших курсов STEM-вузов и специалисты с опытом работы от трёх лет. У лучших абитуриентов появился новый способ поступить — через очную олимпиаду. Заявки принимаем до 12 мая.
Как будем учиться: четыре семестра занятия идут каждый день, очно или онлайн. Обучение займёт около двух лет. Сообщества студентов ШАД есть в Москве, Петербурге, Екатеринбурге, Новосибирске, Нижнем Новгороде и Минске.
Подписывайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Morphic
Morphic - это поисковая система с возможностью генерации ответов на основе искусственного интеллекта.
Она не только предоставляет информацию в текстовом формате, но и создает изображения для более наглядного понимания.
Этот проект полностью открытого кода занимает 4-е место среди новичков на Git по популярности.
▪Github: github.com/miurla/morphic
▪Попробовать: morphic.sh
@Devsp — Подписаться
Morphic - это поисковая система с возможностью генерации ответов на основе искусственного интеллекта.
Она не только предоставляет информацию в текстовом формате, но и создает изображения для более наглядного понимания.
Этот проект полностью открытого кода занимает 4-е место среди новичков на Git по популярности.
▪Github: github.com/miurla/morphic
▪Попробовать: morphic.sh
@Devsp — Подписаться
🌟SALMONN: Speech Audio Language Music Open Neural Network
⏩SALMONN — это большая языковая модель (LLM), позволяющая вводить речь, аудиособытия и музыку.
⏩Модель использует общие знания и когнитивные способности LLM для достижения когнитивно ориентированного восприятия звука, что значительно повышает универсальность модели и богатство задачи.
⏩Кроме того, SALMONN способен выполнять текстовые и даже устные команды с относительно высокой степенью точности.
🖥GitHub
📕Paper
🔥 Datasets
@Devsp — Подписаться
⏩SALMONN — это большая языковая модель (LLM), позволяющая вводить речь, аудиособытия и музыку.
⏩Модель использует общие знания и когнитивные способности LLM для достижения когнитивно ориентированного восприятия звука, что значительно повышает универсальность модели и богатство задачи.
⏩Кроме того, SALMONN способен выполнять текстовые и даже устные команды с относительно высокой степенью точности.
🖥GitHub
📕Paper
🔥 Datasets
@Devsp — Подписаться
🔥Мощная модель LLM для локального использования — Qwen 72B
Qwen — создан на массивной языковой модели и был обучен на ошеломляющих 3 триллионах токенов многоязычных данных.
Это чудо искусственного интеллекта понимает как английский, так и китайский язык, и было точно настроено для взаимодействия, подобного человеческому.
📎Перевод инструкции по установке
🖥GitHub
@Devsp — Подписаться
Qwen — создан на массивной языковой модели и был обучен на ошеломляющих 3 триллионах токенов многоязычных данных.
Это чудо искусственного интеллекта понимает как английский, так и китайский язык, и было точно настроено для взаимодействия, подобного человеческому.
📎Перевод инструкции по установке
🖥GitHub
@Devsp — Подписаться
🦾 Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
Griffin соответствует производительности Llama-2, несмотря на то, что он обучен более чем в 6 раз меньшему количеству токенов.
Он может экстраполировать последовательности, значительно более длинные, чем те, которые наблюдались во время обучения.
▪️Статья: arxiv.org/abs/2402.19427
▪️Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b
@Devsp — Подписаться
Griffin соответствует производительности Llama-2, несмотря на то, что он обучен более чем в 6 раз меньшему количеству токенов.
Он может экстраполировать последовательности, значительно более длинные, чем те, которые наблюдались во время обучения.
▪️Статья: arxiv.org/abs/2402.19427
▪️Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b
@Devsp — Подписаться
⚡️ LLocalSearch: completely locally running meta search engine using LLM Agents
LLocalSearch — это полностью локально работающий поисковый агрегатор с использованием агентов LLM.
Пользователь может задать вопрос, и система будет использовать цепочку LLM для поиска ответа.
▪️Github
@Devsp — Подписаться
LLocalSearch — это полностью локально работающий поисковый агрегатор с использованием агентов LLM.
Пользователь может задать вопрос, и система будет использовать цепочку LLM для поиска ответа.
▪️Github
@Devsp — Подписаться