Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🌟 Introduction to Granite Code Models

IBM выпустили Granite Code Models: семейство моделей Open Foundation для интеллектуального анализа и генерации кода.

Модели Granite Code Base обучаются на токенах 3–4T кодовых данных и наборах данных естественного языка, связанных с кодом.

Данные токенизируются посредством кодирования пар байтов (BPE) с использованием того же токенизатора, что и StarCoder.

Модели отлично справляются с задачами генерации кода, исправления багов объяснения кода, генерации документации к кода.

Github: https://github.com/ibm-granite/granite-code-models
Paper: https://arxiv.org/abs/2405.04324
HF: https://huggingface.co/collections/ibm-granite/granite-code-models-6624c5cec322e4c148c8b330

@DevspПодписаться
​​⚡️ Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images

Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.

Deblur-GS неизменно обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, о чем свидетельствуют оценки, проведенные как на синтетических, так и на реальных наборах данных.

▪️Code: https://github.com/Chaphlagical/Deblur-GS
▪️Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
▪️Project: https://chaphlagical.icu/Deblur-GS/

@DevspПодписаться
​​⚡️ Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images

Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.

Deblur-GS неизменно обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, о чем свидетельствуют оценки, проведенные как на синтетических, так и на реальных наборах данных.

▪️Code: https://github.com/Chaphlagical/Deblur-GS
▪️Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
▪️Project: https://chaphlagical.icu/Deblur-GS/

@DevspПодписаться
​​🔦 IC-Light: Imposing Consistent Light

IC-Light — проект по управлению освещением изображений.

Внутри два типа моделей: модель изменения освещения с из тектовых промптов и модель изменения подсветки фона изображений.

▪️Github: https://github.com/lllyasviel/IC-Light
▪️Jupyter: https://github.com/camenduru/IC-Light-jupyter
▪️Demo: https://huggingface.co/spaces/lllyasviel/IC-Light

@DevspПодписаться
​​🔦 IC-Light: Imposing Consistent Light

IC-Light — проект по управлению освещением изображений.

Внутри два типа моделей: модель изменения освещения с из тектовых промптов и модель изменения подсветки фона изображений.

▪️Github: https://github.com/lllyasviel/IC-Light
▪️Jupyter: https://github.com/camenduru/IC-Light-jupyter
▪️Demo: https://huggingface.co/spaces/lllyasviel/IC-Light

@DevspПодписаться
​​📊 Time Series Foundation Model by Google

TimesFM — это предварительно обученная базовая модель временных рядов, разработанная Google Research для прогнозирования временных рядов.

Модель демонстрирует впечатляющую производительность при zero-shot обучении на множестве бенчмарков.

▪️Github: https://github.com/google-research/timesfm
▪️Paper: https://arxiv.org/abs/2310.10688
▪️Blog: https://research.google/blog/a-decoder-only-foundation-model-for-time-series-forecasting/
▪️HF: https://huggingface.co/google/timesfm-1.0-200m

@DevspПодписаться
​​⚡️ LLaVA-NeXT: A Strong Zero-shot Video Understanding Model

LLaVA-NeXT - большая мультимодальную модель (LMM) с открытым исходным кодом, обученную исключительно на данных текстового изображения.

Она демонстрирует высокую скорость передачи данных и демонстрирует отличные результаты при zero-shot обучении.

▪️Github: https://github.com/LLaVA-VL/LLaVA-NeXT
▪️Blog: https://llava-vl.github.io/blog/2024-04-30-llava-next-video/
▪️HF: https://huggingface.co/shi-labs/CuMo-mistral-7b
▪️Dataset: https://huggingface.co/datasets/shi-labs/CuMo_dataset

@DevspПодписаться
​​🧬 AlphaFold 3 predicts the structure and interactions of all of life’s molecules

AlphaFold 3 - новая модель искусственного интеллекта, разработанную Google DeepMind и Isomorphic Labs.

Модель может предсказывать структуру и взаимодействие всех молекул жизни с беспрецедентной точностью.

Blog: https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
Nature: https://www.nature.com/articles/s41586-024-07487-w
Two Minute Papers: https://www.youtube.com/watch?v=Mz7Qp73lj9o

@DevspПодписаться
​​🔥 FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent

Сквозной дифференцируемый метод, который определяет точные позы камеры, внутренние характеристики камеры и покадровую плотную глубину видеопоследовательности.

Этот метод не только намного превосходит предшествующие методы корректировки пакетов на основе градиентного спуска, но и удивительно работает наравне с COLMAP, современным методом SfM, в последующей задаче синтеза новых представлений на 360 градусов.

Github: https://github.com/dcharatan/flowmap
Paper: https://arxiv.org/abs/2404.15259
Dataset: https://drive.google.com/drive/folders/1PqByQSfzyLjfdZZDwn6RXIECso7WB9IY

@DevspПодписаться
​​⚡️ You Only Cache Once: Decoder-Decoder Architectures for Large Language Models

YOCO существенно снижает потребление памяти GPU и состоит из двух компонентов - cross decoder'а, объединенного с self-decoder'ом.

Результаты экспериментов показывают, что YOCO достигает более высокой производительности по сравнению с архитектурой Трансформеров при различных настройках масштабирования размера модели и количества обучающих токенов, подробнее тут.

▪️Github: https://github.com/microsoft/unilm/tree/master/YOCO
▪️ABS: https://arxiv.org/abs/2405.05254

@DevspПодписаться
​​⚡️ AT-EDM: Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models

Компания Adobe нашла способ снизить вычислительные затраты на диффузионные модели данных без переобучения.

AT-EDM - структура, которая использует карты внимания для выполнения сокращения избыточных токенов во время выполнения без повторного обучения.

▪️Почитать подробнее: https://atedm.github.io
▪️Видео: https://www.youtube.com/watch?v=ZmOdN4F_8Ew
▪️Статья: https://arxiv.org/abs/2405.05252

@DevspПодписаться
​​⭐️PaliGemma by Google is out! A family of 116 new models

PaliGemma — это модель открытого языка видения от Google, вдохновленная PaLI-3 и построенная на основе открытых компонентов, таких как модель видения SigLIP и языковая модель Gemma.

PaliGemma спроектирована как универсальная модель для решения широкого круга задач, связанных с визуальным языком, таких как создание изображений и коротких подписей к видео, визуальный ответ на вопросы, чтение текста, обнаружение объектов и сегментация объектов.

Блог: https://hf.co/blog/paligemma
Модели: https://hf.co/collections/google/paligemma-release-6643a9ffbf57de2ae0448dda
Demo: https://hf.co/spaces/google/paligemma

@DevspПодписаться
​​🔥DocsGPT — open-source AI-помощник для работы с документами и не только

DocsGPT — это передовое решение с открытым исходным кодом, которое упрощает процесс поиска информации в проектной документации.

Благодаря интеграции мощных моделей GPT разработчики могут легко задавать вопросы о проекте и получать точные ответы.

Модели на Hugging Face:
🟡Docsgpt-7b-mistral — требует 1×A10G GPU
🟡Docsgpt-14b — требует 2×A10 GPU
🟡Docsgpt-40b-falcon — требует 8×A10G GPU

🖥GitHub

@DevspПодписаться
​​🌟LibreChat — улучшенный свободный клон ChatGPT

LibreChat объединяет будущее ИИ-помощников с революционной технологией ChatGPT OpenAI.

Отдавая должное оригинальному стилю, LibreChat дает вам возможность интегрировать несколько моделей искусственного интеллекта.

Он интегрирует и расширяет оригинальные клиентские функции, такие как поиск разговоров и сообщений, шаблоны подсказок и плагины.

🖥GitHub
🟡Подробнее о локальном запуске
🟡Использовать онлайн

@DevspПодписаться
​​⚡️ Zeus Новый инструмент экосистемы Pytorch

Zeus — это набор инструментов с открытым исходным кодом для измерения и оптимизации энергопотребления при рабочих нагрузках глубокого обучения.

▪️Github
▪️Подробнее
▪️Docs

@DevspПодписаться
​​🔥Встречайте CAT3D от Google

CAT3D использует модель скрытой диффузии с несколькими видами для создания новых видов сцены.

Эта модель может быть обусловлена ​​любым количеством наблюдаемых видов (входные изображения с соответствующими положениями камеры, встроенными в лучевые координаты) и обучена создавать несколько согласованных новых изображений сцены в указанных целевых точках обзора.

Эта архитектура аналогична моделям диффузии видео, но с встраиванием позы камеры для каждого изображения вместо встраивания времени.

▶️Страничка CAT3D
🟡Arxiv

@DevspПодписаться
​​😐Toon3D: Seeing Cartoons from a New Perspective

Toon 3D может восстанавливать ракурсы камеры и плотную геометрию помещений.

Такие методы, как COLMAP, не могут реконструировать негеометрические изображения, нарисованные от руки, но Toon 3D справляется с этой задачей.

Github: https://github.com/ethanweber/toon3d
Paper: https://arxiv.org/abs/2405.10320
Dem
Proj: https://toon3d.studio

@DevspПодписаться
​​⚡️ Grounding DINO 1.5: Most Capable Open-World Object Detection Model Series.

Grounding DINO 1.5 - набор усовершенствованных моделей обнаружения объектов открытого набора, разработанный IDEA Research , целью которого является усовершенствование «края» обнаружения объектов открытого набора.

Это наиболее эффективный опенсорс инструмент для запуска на edge девайсах, с хорошей оптимизацией и высокой скоростью работы.

Github
Paper
Demo

@DevspПодписаться
​​🌟Verba — open-source приложение для обеспечения сквозного, оптимизированного и удобного интерфейса для Retrieval-Augmented Generation

Verba — это полностью настраиваемый персональный помощник для запроса и взаимодействия с вашими данными, локально или развернутыми через облако.

Отвечает на вопросы, связанные с вашими документами, получает информацию из существующих баз знаний.

Verba сочетает в себе современные технологии RAG и контекстно-зависимую базу данных Weaviate.

🖥GitHub

@DevspПодписаться
​​⚡️PHUDGE3: Phi-3 как масштабируемая система оценивания LLM

PHUDGE — тонко настроенная модель Phi3, которая достигла результатов SOTA в 4 задачах: Feedback Test, Feedback OOD, MT Human, Preference Test, превзойдя все существующие модели по задержке и пропускной способности.

PHUDGE демонстрирует очень сильную корреляцию не только с GPT4, но и с человеческими аннотаторами на непросмотренных данных, а также в задачах абсолютного и относительного оценивания.

📎Arxiv

@DevspПодписаться