Forwarded from Machinelearning
⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
1👍3❤2🔥1
Forwarded from Neurogen (muzaffar)
OpenEnv
Meta и Hugging Face запустили отрытое сообщество и платформу для создания и обмена агентными средами
Агенты могут автономно выполнять тысячи задач, но как правило одной lm мало. Агентам нужен доступ к правильным инструментам, но предоставлять доступ к миллионам инструментов напрямую небезопасно и нерационально.
Решение: Агентные Среды
Агентные среды - это защищённые песочницы, которые определяют всё необходимое для выполнения задачи:
Инструменты и API - только то, что нужно для конкретной задачи
Безопасность - изолированное выполнение с гарантиями
Аутентификация - безопасный доступ к внешним сервисам
Чёткая семантика - понимание требований задачи
OpenEnv Hub интегрируется в новый пост-тренинговый стек от Meta вместе с библиотеками TRL, SkyRL и Unsloth.
Возможности для разработчиков:
✅ Создавать и делиться средами, совместимыми с OpenEnv
✅ Взаимодействовать с средами как человек-агент
✅ Тестировать модели на решении задач в контролируемых условиях
✅ Изучать доступные инструменты и структуру наблюдений
Спецификация и RFCs
Выпущена OpenEnv 0.1 Spec (RFC) для сбора отзывов сообщества. В разработке находятся:
RFC 001 - архитектура основных компонентов (Environment, Agent, Task)
RFC 002 - базовый интерфейс окружения, упаковка и изоляция
RFC 003 - поддержка MCP инструментов
RFC 004 - расширенная поддержка вызовов инструментов
Применение
RL пост-тренинг - обучение RL-агентов с TRL, TorchForge, VeRL
Создание сред - разработка и тестирование собственных окружений
Воспроизведение SOTA - репликация методов вроде Code World Model
Развёртывание - единая среда для тренировки и инференса
Интеграции
OpenEnv уже поддерживается:
TRL от Hugging Face
Unsloth
Lightning.AI
Ссылки на openenv
Hugging Face
GitHub репозиторий с примерами
Google Colab
обсуждение в Discord
Meta и Hugging Face запустили отрытое сообщество и платформу для создания и обмена агентными средами
Агенты могут автономно выполнять тысячи задач, но как правило одной lm мало. Агентам нужен доступ к правильным инструментам, но предоставлять доступ к миллионам инструментов напрямую небезопасно и нерационально.
Решение: Агентные Среды
Агентные среды - это защищённые песочницы, которые определяют всё необходимое для выполнения задачи:
Инструменты и API - только то, что нужно для конкретной задачи
Безопасность - изолированное выполнение с гарантиями
Аутентификация - безопасный доступ к внешним сервисам
Чёткая семантика - понимание требований задачи
OpenEnv Hub интегрируется в новый пост-тренинговый стек от Meta вместе с библиотеками TRL, SkyRL и Unsloth.
Возможности для разработчиков:
Спецификация и RFCs
Выпущена OpenEnv 0.1 Spec (RFC) для сбора отзывов сообщества. В разработке находятся:
RFC 001 - архитектура основных компонентов (Environment, Agent, Task)
RFC 002 - базовый интерфейс окружения, упаковка и изоляция
RFC 003 - поддержка MCP инструментов
RFC 004 - расширенная поддержка вызовов инструментов
Применение
RL пост-тренинг - обучение RL-агентов с TRL, TorchForge, VeRL
Создание сред - разработка и тестирование собственных окружений
Воспроизведение SOTA - репликация методов вроде Code World Model
Развёртывание - единая среда для тренировки и инференса
Интеграции
OpenEnv уже поддерживается:
TRL от Hugging Face
Unsloth
Lightning.AI
Ссылки на openenv
Hugging Face
GitHub репозиторий с примерами
Google Colab
обсуждение в Discord
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1🤯1
Forwarded from Библиотека баз данных
Media is too big
VIEW IN TELEGRAM
🔥 Hugging Face снова выкатили полезные материалы.
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
❤2👍2🔥2
Forwarded from Data Secrets
О, Гарвард опубликовал отличную книгу по ML-системам
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Forwarded from LLM под капотом
Кейс с LLM под капотом - поиск видео для монтажа рекламы
Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.
Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.
Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.
Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.
Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).
Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.
А что тут можно сделать еще лучше?
(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.
А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:
(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования
Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.
В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше.
Ваш, @llm_under_hood 🤗
PS: Пост со списком всех кейсов
Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.
Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.
Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.
Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.
Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).
Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.
А что тут можно сделать еще лучше?
(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.
А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:
(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования
Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.
В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше.
Ваш, @llm_under_hood 🤗
PS: Пост со списком всех кейсов
❤3
Forwarded from Neural Kovalskii
Media is too big
VIEW IN TELEGRAM
SGR Agent Core 0.4.0 + UI
Запись стрима!
YouTube
RuTube
Разработка агента для работы с корпоративным Confluence на базе SGR Agent Core 0.4.0 с использованием локальной модели Qwen3-30B на vLLM.
00:00:00 - Подготовка окружения
- Настройка OBS и серверов (Yandex Cloud + 2x4090(48гб))
- Развертывание vLLM с Qwen3-30B-A3B-Instruct
00:15:00 - Тестирование инфраструктуры
- Проверка работы Qwen через OpenWebUI (~86 tokens/sec)
- Настройка мониторинга GPU
00:27:00 - Настройка SGR Agent Core
- Клонирование репозитория на удаленный сервер
- Подключение через Cursor с SSH
- Конфигурация agents.yaml и config.yaml
00:38:00 - Первый запуск агента
- Тестирование базового SGR Tool Calling Agent
- Запрос цены биткоина - успешно ($96k)
- Разбор двухфазного reasoning
00:52:00 - Разработка Confluence toolkit
- Создание confluence_tools.py с Cursor AI
- Три инструмента: full_text_search, space_search, page_retrieval
- Фиксы с правами доступа
01:10:00 - Тестирование Agentic RAG
- Поиск информации о проекте Smart Platform
- Агент нашел страницы, извлек контент, создал отчет
- Всё без векторизации и чанкинга!
01:26:00 - Запуск фронтенда
- Установка Node.js, настройка портов
- Демонстрация веб-интерфейса
01:36:00 - Финальный тест
- Сравнительный анализ двух проектов
- Объяснение архитектуры решения
01:42:00 - Завершение
- Итог: рабочий агентный RAG за 1.5 часа
- "Когда-нибудь придумаю красивую концовку"
Стек: SGR Agent Core, vLLM, Qwen3-30B, Confluence REST API, Cursor AI, vLLM, guidance
Как результат Агент ищет в Confluence без традиционного RAG pipeline - никаких векторных БД, эмбеддингов и чанкинга!
Запись стрима!
YouTube
RuTube
Разработка агента для работы с корпоративным Confluence на базе SGR Agent Core 0.4.0 с использованием локальной модели Qwen3-30B на vLLM.
00:00:00 - Подготовка окружения
- Настройка OBS и серверов (Yandex Cloud + 2x4090(48гб))
- Развертывание vLLM с Qwen3-30B-A3B-Instruct
00:15:00 - Тестирование инфраструктуры
- Проверка работы Qwen через OpenWebUI (~86 tokens/sec)
- Настройка мониторинга GPU
00:27:00 - Настройка SGR Agent Core
- Клонирование репозитория на удаленный сервер
- Подключение через Cursor с SSH
- Конфигурация agents.yaml и config.yaml
00:38:00 - Первый запуск агента
- Тестирование базового SGR Tool Calling Agent
- Запрос цены биткоина - успешно ($96k)
- Разбор двухфазного reasoning
00:52:00 - Разработка Confluence toolkit
- Создание confluence_tools.py с Cursor AI
- Три инструмента: full_text_search, space_search, page_retrieval
- Фиксы с правами доступа
01:10:00 - Тестирование Agentic RAG
- Поиск информации о проекте Smart Platform
- Агент нашел страницы, извлек контент, создал отчет
- Всё без векторизации и чанкинга!
01:26:00 - Запуск фронтенда
- Установка Node.js, настройка портов
- Демонстрация веб-интерфейса
01:36:00 - Финальный тест
- Сравнительный анализ двух проектов
- Объяснение архитектуры решения
01:42:00 - Завершение
- Итог: рабочий агентный RAG за 1.5 часа
- "Когда-нибудь придумаю красивую концовку"
Стек: SGR Agent Core, vLLM, Qwen3-30B, Confluence REST API, Cursor AI, vLLM, guidance
Как результат Агент ищет в Confluence без традиционного RAG pipeline - никаких векторных БД, эмбеддингов и чанкинга!
❤1👍1🔥1
Forwarded from Инструменты программиста
SurfSense — это open‑source альтернатива NotebookLM, Perplexity и Glean: AI‑агент для исследований, который подключается к вашим личным источникам (поисковые движки, Slack, Linear, Jira, ClickUp, Confluence, Notion, Gmail, YouTube, GitHub, Discord, Airtable, Google Calendar, Luma, Elasticsearch и другие).
Для тех, кто проспал последний год, NotebookLM — этосервис Google, где вы загружаете свои документы, и AI (Gemini) помогает вам суммировать, отвечать на вопросы, создавать FAQ, учебные материалы и подкасты, опираясь только на ваши источники.
Что делает SurfSense:
🟣 Поддерживает 100+ LLM (включая локальные Ollama) и 6000+ моделей эмбеддингов.
🟣 Продвинутый RAG: иерархические индексы (2‑уровневый), гибридный поиск (семантический + полнотекстовый), ранжирование (Pinecone, Cohere, Flashrank).
🟣 Подкаст‑агент: создаёт 3‑минутный подкаст менее чем за 20 секунд, поддерживает локальные TTS (Kokoro) и облачных провайдеров.
🟣 Поддержка 50+ форматов файлов (PDF, DOCX, видео, аудио, email и т.д.).
🟣 Self‑hostable: можно поднять через Docker Compose или вручную.
Быстрый старт:
🟣
🟣 Скопируйте
🟣
🟣 Откройте http://localhost:3000
Где попробовать:
GitHub: https://github.com/MODSetter/SurfSense
Сайт: https://surfsense.com
Discord: https://discord.gg/ejRNvftDp9
Технический стек: FastAPI, PostgreSQL (pgvector), LangGraph, LangChain, Celery, Redis, Next.js 15, React 19, TypeScript, Docker.
@prog_tools
Для тех, кто проспал последний год, NotebookLM — это
Что делает SurfSense:
🟣 Поддерживает 100+ LLM (включая локальные Ollama) и 6000+ моделей эмбеддингов.
🟣 Продвинутый RAG: иерархические индексы (2‑уровневый), гибридный поиск (семантический + полнотекстовый), ранжирование (Pinecone, Cohere, Flashrank).
🟣 Подкаст‑агент: создаёт 3‑минутный подкаст менее чем за 20 секунд, поддерживает локальные TTS (Kokoro) и облачных провайдеров.
🟣 Поддержка 50+ форматов файлов (PDF, DOCX, видео, аудио, email и т.д.).
🟣 Self‑hostable: можно поднять через Docker Compose или вручную.
Быстрый старт:
🟣
git clone https://github.com/MODSetter/SurfSense🟣 Скопируйте
.env.example в .env, добавьте API‑ключи (OpenAI, Tavily и т.д.).🟣
docker compose up -d🟣 Откройте http://localhost:3000
Где попробовать:
GitHub: https://github.com/MODSetter/SurfSense
Сайт: https://surfsense.com
Discord: https://discord.gg/ejRNvftDp9
Технический стек: FastAPI, PostgreSQL (pgvector), LangGraph, LangChain, Celery, Redis, Next.js 15, React 19, TypeScript, Docker.
@prog_tools
Media is too big
VIEW IN TELEGRAM
🔥2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images
Ничего себе! Метачка разродилась целым набором проектов.
Meta Segment Anything Model 3 - с кодом, весами, датасетами и кодом для файнтюна. Видео-сегментация и композ.
Segment Anything Playground - это демо для всех этих проектов, пока работает быстро и даже без регистрации.
И наконец: SAM 3D: Powerful 3D Reconstruction for Physical World Images
И вот это уже прям 3Д-генератор.
Там есть две модели. SAM 3D Objects для реконструкции объектов и сцен, и SAM 3D Body для оценки тела и формы человека.
На входе фото, на выходе 3Д. Чем не 3Д-генератор.
Причем 3Д-болваны получаются сразу со скелетом.
Они так и пишут про целевую аудиторию: 3Д моделинг, VR\AR, геймдев.
Я думаю, что не стоит ждать прям высокополигональных деталей, это больше про 3D reconstructions, но надо разбираться.
Тьма ссылок, посмотрите хотя бы видосы, это новый уровень.
https://ai.meta.com/blog/sam-3d/
https://ai.meta.com/blog/segment-anything-model-3/
Демо-плейграунд:
https://www.aidemos.meta.com/segment-anything
(там есть и обычное вырезание объектов по видео)
Кодищще:
https://github.com/facebookresearch/sam3
Статья: SAM 3: Segment Anything with Concepts
https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/
@cgevent
Ничего себе! Метачка разродилась целым набором проектов.
Meta Segment Anything Model 3 - с кодом, весами, датасетами и кодом для файнтюна. Видео-сегментация и композ.
Segment Anything Playground - это демо для всех этих проектов, пока работает быстро и даже без регистрации.
И наконец: SAM 3D: Powerful 3D Reconstruction for Physical World Images
И вот это уже прям 3Д-генератор.
Там есть две модели. SAM 3D Objects для реконструкции объектов и сцен, и SAM 3D Body для оценки тела и формы человека.
На входе фото, на выходе 3Д. Чем не 3Д-генератор.
Причем 3Д-болваны получаются сразу со скелетом.
Они так и пишут про целевую аудиторию: 3Д моделинг, VR\AR, геймдев.
Я думаю, что не стоит ждать прям высокополигональных деталей, это больше про 3D reconstructions, но надо разбираться.
Тьма ссылок, посмотрите хотя бы видосы, это новый уровень.
https://ai.meta.com/blog/sam-3d/
https://ai.meta.com/blog/segment-anything-model-3/
Демо-плейграунд:
https://www.aidemos.meta.com/segment-anything
(там есть и обычное вырезание объектов по видео)
Кодищще:
https://github.com/facebookresearch/sam3
Статья: SAM 3: Segment Anything with Concepts
https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/
@cgevent
👍3
Forwarded from Data Secrets
Это первая модель, которая пробила планку 80 на SWE bench verified. С ее 80.9% это теперь уверенная SOTA по кодингу.
Модель уже доступна в API, и, что самое приятное, цена относительно предыдущего Opus упала! Было 15$/75$, стало 5/25, ощутимое понижение.
Плюс, модель снова стала экономичнее относительно токенов: на среднем уровне ризонинга она достигает уровня Sonnet 4.5, используя на 76% меньше токенов. А при выкрученном на максимум бюджете обходит Sonnet аж на 4.3 процентных пункта (SWE bench), используя на 48% меньше токенов.
Anthropic пишут, что скормили Opus 4.5 внутренний экзамен, который они дают кандидатам при устройстве на работу. За 2 часа модель справилась с ним лучше, чем любой человек когда-либо в истории стартапа.
Что касается апдейтов в продукте:
– В Claude App добавили сжатие контекста, как в новом Codex. При достижении лимита старый контекст суммаризуется и передается в новое контекстное окно, и вы не упираетесь в конец диалога. Кроме того, теперь в десктопное приложение завезли Claude Code, и там его можно параллелить на разные задачки.
– Из беты вышли Claude для Chrome и для Excel.
– Теперь можно самостоятельно контролировать время размышлений, есть режимы low, high и medium.
🔥 www.anthropic.com/news/claude-opus-4-5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Neural Kovalskii
Лучшие практики и подходы для RAG
(буду наполнять)
Очередной раз спросили в чате канала что почитать про RAG (https://news.1rj.ru/str/neuraldeepchat)
Соберем тут все лучшее присылайте и ваши статьи и разборы
Тут материалы предыдущих ответов
1) https://news.1rj.ru/str/neuraldeepchat/3176
2) https://news.1rj.ru/str/neuraldeepchat/2953
1) Чанкование (sliding window) можно подглядеть концепты от langchain
2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)
3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B
4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B
5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0
Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)
Презентация от Дяди
Построение RAG систем от исследований до индустрии
Хорошо описанные подходы от Богдана
https://news.1rj.ru/str/bogdanisssimo/2047
Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main
Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra
Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/
#RAG
#best_rag_practice
Сохраняй в избранное чтобы не потерять
(буду наполнять)
Очередной раз спросили в чате канала что почитать про RAG (https://news.1rj.ru/str/neuraldeepchat)
Соберем тут все лучшее присылайте и ваши статьи и разборы
Тут материалы предыдущих ответов
1) https://news.1rj.ru/str/neuraldeepchat/3176
2) https://news.1rj.ru/str/neuraldeepchat/2953
1) Чанкование (sliding window) можно подглядеть концепты от langchain
2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)
3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B
4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B
5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0
Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)
Презентация от Дяди
Построение RAG систем от исследований до индустрии
Хорошо описанные подходы от Богдана
https://news.1rj.ru/str/bogdanisssimo/2047
Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main
Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra
Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/
#RAG
#best_rag_practice
Сохраняй в избранное чтобы не потерять
Telegram
Чат Kovalskii Варианты?
Ask about ALL
Чат канала @neuraldeep
Kovalskii на все ответит!
Прошу общаться вежливо и дружелюбно, без политики
Реклама/Вакансии/Рефы через @VaKovaLskii или @mixaill76
Чат канала @neuraldeep
Kovalskii на все ответит!
Прошу общаться вежливо и дружелюбно, без политики
Реклама/Вакансии/Рефы через @VaKovaLskii или @mixaill76
🔥4👍1
Forwarded from БлоGнот
OpenAI выкатила GPT-5.2 Pro и GPT-5.2 Thinking — по заявлению компании, лучшие в мире модели для научной работы. На бенчмарке GPQA Diamond, где вопросы уровня аспирантуры специально составлены так, чтобы ответ нельзя было найти через поиск, Pro-версия показывает 93.2%. На FrontierMath — 40.3% решённых задач экспертного уровня, новый рекорд.
Интересно, что OpenAI явно в математических задачах видит движение к AGI. Правда, это можно назвать поисками ключей под фонарем — ответы в математике легко верифицируются, в отличие от биологии или, упаси боже, философии.
Новая модель уже сегодня доступна в ChatGPT и API, правда, стоимость выше, чем у предыдущей версии процентов на 40. С другой стороны, Gemini 3 Pro тоже дороже, чем Gemini 2.5 Pro, надо же как-то зарабатывать.
https://openai.com/index/gpt-5-2-for-science-and-math/
Интересно, что OpenAI явно в математических задачах видит движение к AGI. Правда, это можно назвать поисками ключей под фонарем — ответы в математике легко верифицируются, в отличие от биологии или, упаси боже, философии.
Новая модель уже сегодня доступна в ChatGPT и API, правда, стоимость выше, чем у предыдущей версии процентов на 40. С другой стороны, Gemini 3 Pro тоже дороже, чем Gemini 2.5 Pro, надо же как-то зарабатывать.
https://openai.com/index/gpt-5-2-for-science-and-math/
Openai
Advancing science and math with GPT-5.2
GPT-5.2 is our strongest model yet for math and science work.
❤1
Forwarded from эйай ньюз
Вышла Gemini 3 Flash
Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.
Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.
Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).
Блогпост
@ai_newz
Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.
Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.
Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).
Блогпост
@ai_newz
🤔1
Можно часами ломать голову над задачей, а можно настроить AI на гениальные идеи 😎
Эксперты Cloud.ru разработали бесплатный курс — «Креативное мышление и AI для решения задач», который поможет освоить креативные методики и научить AI генерировать нестандартные ответы.
А еще: с помощью подробной инструкции создадите креативного AI-ассистента, который будет выдавать нешаблонные решения для ваших задач.
Все это в удобном для вас темпе: начните и завершите курс, когда комфортно.
Перейти к курсу
Эксперты Cloud.ru разработали бесплатный курс — «Креативное мышление и AI для решения задач», который поможет освоить креативные методики и научить AI генерировать нестандартные ответы.
На курсе вы:😶🌫️ Прокачаете стратегическое мышление😶🌫️ Научитесь находить первоначальную проблему😶🌫️ Освоите ТОС и CRAFT для генерации идей😶🌫️ Поймете, как воплотить задумку в реальность
А еще: с помощью подробной инструкции создадите креативного AI-ассистента, который будет выдавать нешаблонные решения для ваших задач.
Все это в удобном для вас темпе: начните и завершите курс, когда комфортно.
Перейти к курсу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2😁1