📊 Time Series Foundation Model by Google
TimesFM — это предварительно обученная базовая модель временных рядов, разработанная Google Research для прогнозирования временных рядов.
Модель демонстрирует впечатляющую производительность при zero-shot обучении на множестве бенчмарков.
▪️Github: https://github.com/google-research/timesfm
▪️Paper: https://arxiv.org/abs/2310.10688
▪️Blog: https://research.google/blog/a-decoder-only-foundation-model-for-time-series-forecasting/
▪️HF: https://huggingface.co/google/timesfm-1.0-200m
@Devsp — Подписаться
TimesFM — это предварительно обученная базовая модель временных рядов, разработанная Google Research для прогнозирования временных рядов.
Модель демонстрирует впечатляющую производительность при zero-shot обучении на множестве бенчмарков.
▪️Github: https://github.com/google-research/timesfm
▪️Paper: https://arxiv.org/abs/2310.10688
▪️Blog: https://research.google/blog/a-decoder-only-foundation-model-for-time-series-forecasting/
▪️HF: https://huggingface.co/google/timesfm-1.0-200m
@Devsp — Подписаться
⚡️ LLaVA-NeXT: A Strong Zero-shot Video Understanding Model
LLaVA-NeXT - большая мультимодальную модель (LMM) с открытым исходным кодом, обученную исключительно на данных текстового изображения.
Она демонстрирует высокую скорость передачи данных и демонстрирует отличные результаты при zero-shot обучении.
▪️Github: https://github.com/LLaVA-VL/LLaVA-NeXT
▪️Blog: https://llava-vl.github.io/blog/2024-04-30-llava-next-video/
▪️HF: https://huggingface.co/shi-labs/CuMo-mistral-7b
▪️Dataset: https://huggingface.co/datasets/shi-labs/CuMo_dataset
@Devsp — Подписаться
LLaVA-NeXT - большая мультимодальную модель (LMM) с открытым исходным кодом, обученную исключительно на данных текстового изображения.
Она демонстрирует высокую скорость передачи данных и демонстрирует отличные результаты при zero-shot обучении.
▪️Github: https://github.com/LLaVA-VL/LLaVA-NeXT
▪️Blog: https://llava-vl.github.io/blog/2024-04-30-llava-next-video/
▪️HF: https://huggingface.co/shi-labs/CuMo-mistral-7b
▪️Dataset: https://huggingface.co/datasets/shi-labs/CuMo_dataset
@Devsp — Подписаться
🧬 AlphaFold 3 predicts the structure and interactions of all of life’s molecules
AlphaFold 3 - новая модель искусственного интеллекта, разработанную Google DeepMind и Isomorphic Labs.
Модель может предсказывать структуру и взаимодействие всех молекул жизни с беспрецедентной точностью.
▪Blog: https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
▪Nature: https://www.nature.com/articles/s41586-024-07487-w
▪Two Minute Papers: https://www.youtube.com/watch?v=Mz7Qp73lj9o
@Devsp — Подписаться
AlphaFold 3 - новая модель искусственного интеллекта, разработанную Google DeepMind и Isomorphic Labs.
Модель может предсказывать структуру и взаимодействие всех молекул жизни с беспрецедентной точностью.
▪Blog: https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
▪Nature: https://www.nature.com/articles/s41586-024-07487-w
▪Two Minute Papers: https://www.youtube.com/watch?v=Mz7Qp73lj9o
@Devsp — Подписаться
🔥 FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent
Сквозной дифференцируемый метод, который определяет точные позы камеры, внутренние характеристики камеры и покадровую плотную глубину видеопоследовательности.
Этот метод не только намного превосходит предшествующие методы корректировки пакетов на основе градиентного спуска, но и удивительно работает наравне с COLMAP, современным методом SfM, в последующей задаче синтеза новых представлений на 360 градусов.
• Github: https://github.com/dcharatan/flowmap
• Paper: https://arxiv.org/abs/2404.15259
• Dataset: https://drive.google.com/drive/folders/1PqByQSfzyLjfdZZDwn6RXIECso7WB9IY
@Devsp — Подписаться
Сквозной дифференцируемый метод, который определяет точные позы камеры, внутренние характеристики камеры и покадровую плотную глубину видеопоследовательности.
Этот метод не только намного превосходит предшествующие методы корректировки пакетов на основе градиентного спуска, но и удивительно работает наравне с COLMAP, современным методом SfM, в последующей задаче синтеза новых представлений на 360 градусов.
• Github: https://github.com/dcharatan/flowmap
• Paper: https://arxiv.org/abs/2404.15259
• Dataset: https://drive.google.com/drive/folders/1PqByQSfzyLjfdZZDwn6RXIECso7WB9IY
@Devsp — Подписаться
⚡️ You Only Cache Once: Decoder-Decoder Architectures for Large Language Models
YOCO существенно снижает потребление памяти GPU и состоит из двух компонентов - cross decoder'а, объединенного с self-decoder'ом.
Результаты экспериментов показывают, что YOCO достигает более высокой производительности по сравнению с архитектурой Трансформеров при различных настройках масштабирования размера модели и количества обучающих токенов, подробнее тут.
▪️Github: https://github.com/microsoft/unilm/tree/master/YOCO
▪️ABS: https://arxiv.org/abs/2405.05254
@Devsp — Подписаться
YOCO существенно снижает потребление памяти GPU и состоит из двух компонентов - cross decoder'а, объединенного с self-decoder'ом.
Результаты экспериментов показывают, что YOCO достигает более высокой производительности по сравнению с архитектурой Трансформеров при различных настройках масштабирования размера модели и количества обучающих токенов, подробнее тут.
▪️Github: https://github.com/microsoft/unilm/tree/master/YOCO
▪️ABS: https://arxiv.org/abs/2405.05254
@Devsp — Подписаться
⚡️ AT-EDM: Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models
Компания Adobe нашла способ снизить вычислительные затраты на диффузионные модели данных без переобучения.
AT-EDM - структура, которая использует карты внимания для выполнения сокращения избыточных токенов во время выполнения без повторного обучения.
▪️Почитать подробнее: https://atedm.github.io
▪️Видео: https://www.youtube.com/watch?v=ZmOdN4F_8Ew
▪️Статья: https://arxiv.org/abs/2405.05252
@Devsp — Подписаться
Компания Adobe нашла способ снизить вычислительные затраты на диффузионные модели данных без переобучения.
AT-EDM - структура, которая использует карты внимания для выполнения сокращения избыточных токенов во время выполнения без повторного обучения.
▪️Почитать подробнее: https://atedm.github.io
▪️Видео: https://www.youtube.com/watch?v=ZmOdN4F_8Ew
▪️Статья: https://arxiv.org/abs/2405.05252
@Devsp — Подписаться
⭐️PaliGemma by Google is out! A family of 116 new models
PaliGemma — это модель открытого языка видения от Google, вдохновленная PaLI-3 и построенная на основе открытых компонентов, таких как модель видения SigLIP и языковая модель Gemma.
PaliGemma спроектирована как универсальная модель для решения широкого круга задач, связанных с визуальным языком, таких как создание изображений и коротких подписей к видео, визуальный ответ на вопросы, чтение текста, обнаружение объектов и сегментация объектов.
▪Блог: https://hf.co/blog/paligemma
▪Модели: https://hf.co/collections/google/paligemma-release-6643a9ffbf57de2ae0448dda
▪Demo: https://hf.co/spaces/google/paligemma
@Devsp — Подписаться
PaliGemma — это модель открытого языка видения от Google, вдохновленная PaLI-3 и построенная на основе открытых компонентов, таких как модель видения SigLIP и языковая модель Gemma.
PaliGemma спроектирована как универсальная модель для решения широкого круга задач, связанных с визуальным языком, таких как создание изображений и коротких подписей к видео, визуальный ответ на вопросы, чтение текста, обнаружение объектов и сегментация объектов.
▪Блог: https://hf.co/blog/paligemma
▪Модели: https://hf.co/collections/google/paligemma-release-6643a9ffbf57de2ae0448dda
▪Demo: https://hf.co/spaces/google/paligemma
@Devsp — Подписаться
🔥DocsGPT — open-source AI-помощник для работы с документами и не только
DocsGPT — это передовое решение с открытым исходным кодом, которое упрощает процесс поиска информации в проектной документации.
Благодаря интеграции мощных моделей GPT разработчики могут легко задавать вопросы о проекте и получать точные ответы.
Модели на Hugging Face:
🟡Docsgpt-7b-mistral — требует 1×A10G GPU
🟡Docsgpt-14b — требует 2×A10 GPU
🟡Docsgpt-40b-falcon — требует 8×A10G GPU
🖥GitHub
@Devsp — Подписаться
DocsGPT — это передовое решение с открытым исходным кодом, которое упрощает процесс поиска информации в проектной документации.
Благодаря интеграции мощных моделей GPT разработчики могут легко задавать вопросы о проекте и получать точные ответы.
Модели на Hugging Face:
🟡Docsgpt-7b-mistral — требует 1×A10G GPU
🟡Docsgpt-14b — требует 2×A10 GPU
🟡Docsgpt-40b-falcon — требует 8×A10G GPU
🖥GitHub
@Devsp — Подписаться
🌟LibreChat — улучшенный свободный клон ChatGPT
LibreChat объединяет будущее ИИ-помощников с революционной технологией ChatGPT OpenAI.
Отдавая должное оригинальному стилю, LibreChat дает вам возможность интегрировать несколько моделей искусственного интеллекта.
Он интегрирует и расширяет оригинальные клиентские функции, такие как поиск разговоров и сообщений, шаблоны подсказок и плагины.
🖥GitHub
🟡Подробнее о локальном запуске
🟡Использовать онлайн
@Devsp — Подписаться
LibreChat объединяет будущее ИИ-помощников с революционной технологией ChatGPT OpenAI.
Отдавая должное оригинальному стилю, LibreChat дает вам возможность интегрировать несколько моделей искусственного интеллекта.
Он интегрирует и расширяет оригинальные клиентские функции, такие как поиск разговоров и сообщений, шаблоны подсказок и плагины.
🖥GitHub
🟡Подробнее о локальном запуске
🟡Использовать онлайн
@Devsp — Подписаться
🔥Встречайте CAT3D от Google
CAT3D использует модель скрытой диффузии с несколькими видами для создания новых видов сцены.
Эта модель может быть обусловлена любым количеством наблюдаемых видов (входные изображения с соответствующими положениями камеры, встроенными в лучевые координаты) и обучена создавать несколько согласованных новых изображений сцены в указанных целевых точках обзора.
Эта архитектура аналогична моделям диффузии видео, но с встраиванием позы камеры для каждого изображения вместо встраивания времени.
▶️Страничка CAT3D
🟡Arxiv
@Devsp — Подписаться
CAT3D использует модель скрытой диффузии с несколькими видами для создания новых видов сцены.
Эта модель может быть обусловлена любым количеством наблюдаемых видов (входные изображения с соответствующими положениями камеры, встроенными в лучевые координаты) и обучена создавать несколько согласованных новых изображений сцены в указанных целевых точках обзора.
Эта архитектура аналогична моделям диффузии видео, но с встраиванием позы камеры для каждого изображения вместо встраивания времени.
▶️Страничка CAT3D
🟡Arxiv
@Devsp — Подписаться
😐Toon3D: Seeing Cartoons from a New Perspective
Toon 3D может восстанавливать ракурсы камеры и плотную геометрию помещений.
Такие методы, как COLMAP, не могут реконструировать негеометрические изображения, нарисованные от руки, но Toon 3D справляется с этой задачей.
▪Github: https://github.com/ethanweber/toon3d
▪Paper: https://arxiv.org/abs/2405.10320
Dem
▪Proj: https://toon3d.studio
@Devsp — Подписаться
Toon 3D может восстанавливать ракурсы камеры и плотную геометрию помещений.
Такие методы, как COLMAP, не могут реконструировать негеометрические изображения, нарисованные от руки, но Toon 3D справляется с этой задачей.
▪Github: https://github.com/ethanweber/toon3d
▪Paper: https://arxiv.org/abs/2405.10320
Dem
▪Proj: https://toon3d.studio
@Devsp — Подписаться
⚡️ Grounding DINO 1.5: Most Capable Open-World Object Detection Model Series.
Grounding DINO 1.5 - набор усовершенствованных моделей обнаружения объектов открытого набора, разработанный IDEA Research , целью которого является усовершенствование «края» обнаружения объектов открытого набора.
Это наиболее эффективный опенсорс инструмент для запуска на edge девайсах, с хорошей оптимизацией и высокой скоростью работы.
▪Github
▪Paper
▪Demo
@Devsp — Подписаться
Grounding DINO 1.5 - набор усовершенствованных моделей обнаружения объектов открытого набора, разработанный IDEA Research , целью которого является усовершенствование «края» обнаружения объектов открытого набора.
Это наиболее эффективный опенсорс инструмент для запуска на edge девайсах, с хорошей оптимизацией и высокой скоростью работы.
▪Github
▪Paper
▪Demo
@Devsp — Подписаться
🌟Verba — open-source приложение для обеспечения сквозного, оптимизированного и удобного интерфейса для Retrieval-Augmented Generation
Verba — это полностью настраиваемый персональный помощник для запроса и взаимодействия с вашими данными, локально или развернутыми через облако.
Отвечает на вопросы, связанные с вашими документами, получает информацию из существующих баз знаний.
Verba сочетает в себе современные технологии RAG и контекстно-зависимую базу данных Weaviate.
🖥GitHub
@Devsp — Подписаться
Verba — это полностью настраиваемый персональный помощник для запроса и взаимодействия с вашими данными, локально или развернутыми через облако.
Отвечает на вопросы, связанные с вашими документами, получает информацию из существующих баз знаний.
Verba сочетает в себе современные технологии RAG и контекстно-зависимую базу данных Weaviate.
🖥GitHub
@Devsp — Подписаться
⚡️PHUDGE3: Phi-3 как масштабируемая система оценивания LLM
PHUDGE — тонко настроенная модель Phi3, которая достигла результатов SOTA в 4 задачах: Feedback Test, Feedback OOD, MT Human, Preference Test, превзойдя все существующие модели по задержке и пропускной способности.
PHUDGE демонстрирует очень сильную корреляцию не только с GPT4, но и с человеческими аннотаторами на непросмотренных данных, а также в задачах абсолютного и относительного оценивания.
📎Arxiv
@Devsp — Подписаться
PHUDGE — тонко настроенная модель Phi3, которая достигла результатов SOTA в 4 задачах: Feedback Test, Feedback OOD, MT Human, Preference Test, превзойдя все существующие модели по задержке и пропускной способности.
PHUDGE демонстрирует очень сильную корреляцию не только с GPT4, но и с человеческими аннотаторами на непросмотренных данных, а также в задачах абсолютного и относительного оценивания.
📎Arxiv
@Devsp — Подписаться
🔥 GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting
GaussianObject — платформа для представления и рендеринга 3D-объектов с помощью гауссовских пятен, которая обеспечивает высокое качество рендеринга всего с четырьмя входными изображениями.
▪️Github: https://github.com/GaussianObject/GaussianObject
▪️Colab: https://colab.research.google.com/drive/1WIZgM--tJ3aq25t9g238JAuAoXrQYVMs?usp=sharing#scrollTo=TlrxF62GNePB
▪️Project: https://gaussianobject.github.io
@Devsp — Подписаться
GaussianObject — платформа для представления и рендеринга 3D-объектов с помощью гауссовских пятен, которая обеспечивает высокое качество рендеринга всего с четырьмя входными изображениями.
▪️Github: https://github.com/GaussianObject/GaussianObject
▪️Colab: https://colab.research.google.com/drive/1WIZgM--tJ3aq25t9g238JAuAoXrQYVMs?usp=sharing#scrollTo=TlrxF62GNePB
▪️Project: https://gaussianobject.github.io
@Devsp — Подписаться
⚡️ Layer-Condensed KV Cache
Layer-Condensed KV Cache — новый вариант декодеров-трансформеров, в котором запросы всех уровней сочетаются с ключами и значениями только верхнего уровня.
Обеспечивает в 26 раз более высокую пропускную способность по сравнению со стандартными трансформерами и помогает увеличить производительность больших языковых моделей.
▪repo: https://github.com/whyNLP/LCKV
▪abs: https://arxiv.org/abs/2405.10637
@Devsp — Подписаться
Layer-Condensed KV Cache — новый вариант декодеров-трансформеров, в котором запросы всех уровней сочетаются с ключами и значениями только верхнего уровня.
Обеспечивает в 26 раз более высокую пропускную способность по сравнению со стандартными трансформерами и помогает увеличить производительность больших языковых моделей.
▪repo: https://github.com/whyNLP/LCKV
▪abs: https://arxiv.org/abs/2405.10637
@Devsp — Подписаться
⚡️Devon — open-source AI-программист
Devon — AI-помощник, которого можно использовать для парного программирования;
open-source аналог Devin.
Использует API Anthropic, или OpenAI, или Groq.
🖥GitHub
🟡Пример использования
@Devsp — Подписаться
Devon — AI-помощник, которого можно использовать для парного программирования;
open-source аналог Devin.
Использует API Anthropic, или OpenAI, или Groq.
🖥GitHub
🟡Пример использования
@Devsp — Подписаться
⚡️Phi-3-medium-4k-instruct
Phi-3 Vision — это легкая, современная открытая мультимодальная модель, построенная на наборах данных, которые включают в себя синтетические данные и отфильтрованные общедоступные веб-сайты с упором на очень высококачественные, аргументированные и плотные данные как в текстовом, так и в визуальном виде.
Модель прошла тщательный процесс усовершенствования, включающий как контролируемую точную настройку, так и прямую оптимизацию предпочтений, чтобы обеспечить точное соблюдение инструкций и надежные меры безопасности.
- Phi-3-Vision: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
- Phi-3-Small:
~8k: https://huggingface.co/microsoft/Phi-3-small-8k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-small-128k-instruct
- Phi-3-Medium:
~4k: https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-medium-128k-instruct
@Devsp — Подписаться
Phi-3 Vision — это легкая, современная открытая мультимодальная модель, построенная на наборах данных, которые включают в себя синтетические данные и отфильтрованные общедоступные веб-сайты с упором на очень высококачественные, аргументированные и плотные данные как в текстовом, так и в визуальном виде.
Модель прошла тщательный процесс усовершенствования, включающий как контролируемую точную настройку, так и прямую оптимизацию предпочтений, чтобы обеспечить точное соблюдение инструкций и надежные меры безопасности.
- Phi-3-Vision: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
- Phi-3-Small:
~8k: https://huggingface.co/microsoft/Phi-3-small-8k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-small-128k-instruct
- Phi-3-Medium:
~4k: https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
~128k: https://huggingface.co/microsoft/Phi-3-medium-128k-instruct
@Devsp — Подписаться
🚀 MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning
MoRA - новый метод использования высокоранговых обновлений весов для файнтюнига моделей при сохранении того же количества обучаемых параметров, как и при использовании матриц низкого ранга.
▪repo: https://github.com/kongds/MoRA
▪abs: https://arxiv.org/abs/2405.12130
@Devsp — Подписаться
MoRA - новый метод использования высокоранговых обновлений весов для файнтюнига моделей при сохранении того же количества обучаемых параметров, как и при использовании матриц низкого ранга.
▪repo: https://github.com/kongds/MoRA
▪abs: https://arxiv.org/abs/2405.12130
@Devsp — Подписаться
⚡️Cover-Agent — инструмент с открытым исходным кодом, включающий в себя реализацию TestGen-LLM от Meta для автоматического улучшения наборов тестов
Cover-Agent использует генеративный искусственный интеллект для автоматизации и улучшения генерации тестов (сейчас в основном юнит-тестов).
Cover-Agent может запускаться через терминал, в будущем его планируется интегрировать в популярные CI-платформы.
Cover-Agent может работать через терминал, и его планируется интегрировать в популярные CI-платформы.
🖥GitHub
🟡Связанная статья Arxiv
@Devsp — Подписаться
Cover-Agent использует генеративный искусственный интеллект для автоматизации и улучшения генерации тестов (сейчас в основном юнит-тестов).
Cover-Agent может запускаться через терминал, в будущем его планируется интегрировать в популярные CI-платформы.
Cover-Agent может работать через терминал, и его планируется интегрировать в популярные CI-платформы.
🖥GitHub
🟡Связанная статья Arxiv
@Devsp — Подписаться