Forwarded from Neurogen (muzaffar)
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпустили недавно гайд по промптингу Sora 2. Нашел для вас готовый, собранный шаблон, по сути главный и самый лучший.
Свое видео сгенерированное по шаблону прикрепил к посту
Шаблон
Мой промпт к видео в посте:
И вот вам еще один сайт на котором можно получить код https://formbiz.biz/
Гайд по промпту
Свое видео сгенерированное по шаблону прикрепил к посту
Шаблон
[Prose scene denoscription in plain language. Describe characters, costumes, scenery, weather and other details. Be as denoscriptive to generate a video that matches your vision.]
Cinematography:
Camera shot: [framing and angle, e.g. wide establishing shot, eye level]
Mood: [overall tone, e.g. cinematic and tense, playful and suspenseful, luxurious anticipation]
Actions:
- [Action 1: a clear, specific beat or gesture]
- [Action 2: another distinct beat within the clip]
- [Action 3: another action or dialogue line]
Dialogue:
[If the shot has dialogue, add short natural lines here or as part of the actions list. Keep them brief so they match the clip length.]
Мой промпт к видео в посте:
[Prose scene denoscription in plain language]
A young woman stands on the rooftop of a neon-lit Tokyo building at night. Her silver jacket reflects the glow of digital billboards, and rain gently falls around her. The city stretches infinitely below — cars, lights, and holographic ads painting the skyline. Steam rises from nearby vents as wind blows strands of her wet hair across her face.
Cinematography:
Camera shot: Medium close-up, slowly dolly out to reveal the cityscape behind her.
Mood: Cinematic and melancholic, with a sense of quiet determination.
Actions:
She looks down at a glowing holographic wrist display, scanning incoming data.
She exhales, closes her eyes briefly, and lifts her head toward the horizon.
She whispers softly, “It’s time.”
Dialogue:
“It’s time.”
И вот вам еще один сайт на котором можно получить код https://formbiz.biz/
Гайд по промпту
Forwarded from Life2film
На той неделе решил поучаствовать в конкурсе - https://wundernn.io - предсказания для алгоритмической высокочастотной торговли на биржах. (В датасете нет подробностей что за данные и тп, просто рандомные названия для 32 сталбцов)
И добился для себя офигенных результатов!
Из 2000 участников уже 11…
А было вначале 200, потом 150, 140, 80, 40, 15, 11…
Чем ближе тем выше спортивный интерес))
Я использую для себя новые подходы, изучаю нейронки для предсказания на timeseries данных.
Если интересно, то за основу взял эту архитектуру… и ее развивал, ансамбли и тп.
https://github.com/ditschuk/pytorch-tsmixer
пытался более мощные и новые, типа этой https://github.com/SamsungSAILMontreal/TinyRecursiveModels
но пока из старичков хочу выжать…
Тк ограниченные условия:
1. Решение в архиве zip не более 20мб!
2. Время выполнения на 1 цпу не более часа…
И это жестко все ограничивает, но и делает интересным решением.
В итоге получаются нейронки небольшие которые на цпу могут предсказывать рынок!)
PS. Но подробности уже после конкурса 1 декабря, после результатов.
И добился для себя офигенных результатов!
Из 2000 участников уже 11…
А было вначале 200, потом 150, 140, 80, 40, 15, 11…
Чем ближе тем выше спортивный интерес))
Я использую для себя новые подходы, изучаю нейронки для предсказания на timeseries данных.
Если интересно, то за основу взял эту архитектуру… и ее развивал, ансамбли и тп.
https://github.com/ditschuk/pytorch-tsmixer
пытался более мощные и новые, типа этой https://github.com/SamsungSAILMontreal/TinyRecursiveModels
но пока из старичков хочу выжать…
Тк ограниченные условия:
1. Решение в архиве zip не более 20мб!
2. Время выполнения на 1 цпу не более часа…
И это жестко все ограничивает, но и делает интересным решением.
В итоге получаются нейронки небольшие которые на цпу могут предсказывать рынок!)
PS. Но подробности уже после конкурса 1 декабря, после результатов.
👍2🔥2
Forwarded from Russian OSINT
This media is not supported in your browser
VIEW IN TELEGRAM
С помощью технологии DeepSeek OCR мы извлекли все наборы данных из таблиц и диаграмм, содержащихся в более чем 500 000 научных работ по искусственному интеллекту на портале arXiv. Затраты на реализацию проекта составили 1000 долларов США.
Теперь вы можете отслеживать наиболее актуальные бенчмарки и находить наборы данных, о существовании которых ранее не было известно.
Для сравнения: выполнение аналогичной задачи с использованием технологии Mistral OCR обошлось бы в 7500 долларов США
На следующей неделе мы опубликуем набор данных статей arXiv в формате markdown, обработанных с помощью DeepSeek OCR.
Создан, чтобы предоставить преподавателям LLM высококачественный предварительный учебный ресурс, который не нагружает серверы arXiv ботами для сбора данных.
Посмотрите наши наборы данных и бенчмарки, проиндексированные DeepSeek OCR:
https://www.alphaxiv.org/?datasets=true
— делятся впечатлениями alphaXiv.
Особенность DeepSeek OCR в том, что технология не читает текст традиционным способом, а как бы фотографирует его, превращая в компактное изображение, затем анализирует изображение. Такой подход позволяет ИИ-решениям обрабатывать огромные объемы документов намного эффективнее. Главное новшество это способность сжимать текстовую информацию в 10, а иногда и в 20 раз. Модель преобразует тысячи текстовых токенов в несколько сотен визуальных токенов. Таким образом, снижается вычислительная нагрузка при обработке длинных документов, позволяя ИИ анализировать контекст быстрее и дешевле.
DeepSeek OCR умеет не просто распознавать текст, но и проводить глубокий синтаксический анализ, а также извлекать структурированную информацию из сложных элементов, таких как:
https://github.com/deepseek-ai/DeepSeek-OCR
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Forwarded from Поляков считает: AI, код и кейсы
SGR-паттерн: как заставить маленькие модели работать как большие
В конце августа 2025 Валерий Ковальский (автор канала NeuralDeep) запилил готовую либу для SGR-паттерна на GitHub. Репозиторий быстро собрал звезды и оброс контрибьюторами — теперь его упоминают даже в самых неожиданных местах.
Сам Валерий считает, что на базе этого подхода появятся стартапы на миллион долларов. И я с ним соглашусь: если даже на банальном Structured Output по всему миру уже заработаны миллионы, то SGR открывает ещё больше возможностей.
🔍 Боль разработчиков: когда LLM пропускает шаги
Обычно нам недостаточно просто текста от модели. Нужно, чтобы она выполняла задачи: вызывала функцию расчета, искала в интернете или уточняла запрос у пользователя.
Привычные паттерны вроде ReAct это делают, но есть проблема: на маленьких моделях они пропускают шаги. Модель может не вызвать нужный инструмент, хотя должна была. На больших моделях это тоже бывает, но реже.
Хуже всего то, что это ломает пользовательский опыт. Разработчикам приходится городить костыли, а решения получаются слабыми и некрасивыми.
📊 Конкретные цифры провала Function Calling
Вот реальные данные из бенчмарка BFCL для семейства Qwen3 в режиме Agentic Web Search (когда модель сама решает, вызывать ли инструмент):
🔸 Qwen3-8B: только 15% точности
🔸 Qwen3-4B: всего 2% точности
🔸 Qwen3-1.7B: лишь 4.5% точности
Даже при нативной поддержке Function Calling маленькие модели не понимают, когда нужно вызывать инструменты. Типичный результат: {"tool_calls": null, "content": "Текст вместо вызова функции"}.
⚡ Как SGR решает проблему
SGR фактически разделяет два этапа: reasoning (рассуждения) и execution (исполнение).
На этапе reasoning модель через Structured Output жёстко описывает, какие инструменты нужно вызвать и почему. Затем эти инструменты вызываются программно, без участия LLM.
Такой подход формализует бизнес-логику вызова инструментов и делает эту задачу удобной для отладки. Все шаги рассуждений видны, проверяемы и воспроизводимы.
🛠️ Готовая библиотека от комьюнити
Репозиторий SGR Deep Research — это не просто концепция, а готовая система с OpenAI-совместимым API. Можно отнаследоваться от BaseTool и передать свой кастомный набор инструментов в параметре toolkit агенту.
В либе реализовано 5 типов агентов: от чистого SGR до гибридных подходов с Function Calling. Есть поддержка стриминга, прерывания агента для уточнений и автоматическое сохранение отчетов.
🔐 Концепция гарантирующих паттернов
SGR можно назвать гарантирующим паттерном в работе с LLM. В данном случае он гарантирует вызов определённого инструмента даже на маленьких моделях.
Structured Output — тоже гарантирующий паттерн, но другой: он гарантирует, что ответ будет в чёткой структуре и полноте.
Это не альтернативы, а комплементарные техники. SGR использует SO для этапа рассуждений, а затем добавляет детерминированное исполнение.
🚀 Пушка для локальных моделей
Особенно важен SGR для локальных моделей, которые работают на приватных серверах. Они менее "умные" чем облачные GPT-5 или Claude Sonnet 4, но SGR помогает компенсировать это ограничение.
Если материал оказался полезным — ставьте реакции, пишите комментарии.
---
🔗 Оригинальная концепция SGR: https://abdullin.com/schema-guided-reasoning/
🔗 Репозиторий SGR Deep Research: https://github.com/vamplabAI/sgr-deep-research
----
Поляков считает — про ИИ, рекламу и аналитику.
В конце августа 2025 Валерий Ковальский (автор канала NeuralDeep) запилил готовую либу для SGR-паттерна на GitHub. Репозиторий быстро собрал звезды и оброс контрибьюторами — теперь его упоминают даже в самых неожиданных местах.
Сам Валерий считает, что на базе этого подхода появятся стартапы на миллион долларов. И я с ним соглашусь: если даже на банальном Structured Output по всему миру уже заработаны миллионы, то SGR открывает ещё больше возможностей.
💡 Проблема: я всё чаще встречаю, как SGR путают с альтернативой Structured Output. Это не так. Давайте разберемся, в чем реальный прорыв технологии.
🔍 Боль разработчиков: когда LLM пропускает шаги
Обычно нам недостаточно просто текста от модели. Нужно, чтобы она выполняла задачи: вызывала функцию расчета, искала в интернете или уточняла запрос у пользователя.
Привычные паттерны вроде ReAct это делают, но есть проблема: на маленьких моделях они пропускают шаги. Модель может не вызвать нужный инструмент, хотя должна была. На больших моделях это тоже бывает, но реже.
Хуже всего то, что это ломает пользовательский опыт. Разработчикам приходится городить костыли, а решения получаются слабыми и некрасивыми.
📊 Конкретные цифры провала Function Calling
Вот реальные данные из бенчмарка BFCL для семейства Qwen3 в режиме Agentic Web Search (когда модель сама решает, вызывать ли инструмент):
🔸 Qwen3-8B: только 15% точности
🔸 Qwen3-4B: всего 2% точности
🔸 Qwen3-1.7B: лишь 4.5% точности
Даже при нативной поддержке Function Calling маленькие модели не понимают, когда нужно вызывать инструменты. Типичный результат: {"tool_calls": null, "content": "Текст вместо вызова функции"}.
⚡ Как SGR решает проблему
SGR фактически разделяет два этапа: reasoning (рассуждения) и execution (исполнение).
На этапе reasoning модель через Structured Output жёстко описывает, какие инструменты нужно вызвать и почему. Затем эти инструменты вызываются программно, без участия LLM.
Такой подход формализует бизнес-логику вызова инструментов и делает эту задачу удобной для отладки. Все шаги рассуждений видны, проверяемы и воспроизводимы.
🎯 Буст точности 5-10% — это стандартный результат для SGR. А на маленьких моделях разница ещё выше.
🛠️ Готовая библиотека от комьюнити
Репозиторий SGR Deep Research — это не просто концепция, а готовая система с OpenAI-совместимым API. Можно отнаследоваться от BaseTool и передать свой кастомный набор инструментов в параметре toolkit агенту.
В либе реализовано 5 типов агентов: от чистого SGR до гибридных подходов с Function Calling. Есть поддержка стриминга, прерывания агента для уточнений и автоматическое сохранение отчетов.
🔐 Концепция гарантирующих паттернов
SGR можно назвать гарантирующим паттерном в работе с LLM. В данном случае он гарантирует вызов определённого инструмента даже на маленьких моделях.
Structured Output — тоже гарантирующий паттерн, но другой: он гарантирует, что ответ будет в чёткой структуре и полноте.
Это не альтернативы, а комплементарные техники. SGR использует SO для этапа рассуждений, а затем добавляет детерминированное исполнение.
🚀 Пушка для локальных моделей
Особенно важен SGR для локальных моделей, которые работают на приватных серверах. Они менее "умные" чем облачные GPT-5 или Claude Sonnet 4, но SGR помогает компенсировать это ограничение.
Если материал оказался полезным — ставьте реакции, пишите комментарии.
---
🔗 Оригинальная концепция SGR: https://abdullin.com/schema-guided-reasoning/
🔗 Репозиторий SGR Deep Research: https://github.com/vamplabAI/sgr-deep-research
----
Поляков считает — про ИИ, рекламу и аналитику.
👍1
Forwarded from Life2film
Media is too big
VIEW IN TELEGRAM
Эволюционное программирование!
Я до сих пор помню как на 1 курсе физмата… пробовали писать игру жизнь на паскаль. Вы тоже пробовали?
И вот, открытие последних недель для меня работа где скрестили подход LLM+эволюция!
ShinkaEvolve - https://sakana.ai/shinka-evolve/, помогает найти решение создавая мутации начального решения.
Вы даете ему начальное состояние программы… и он перебирает разные и ищет лучшее, выращивая поколения вашей программы…. наши дети будут лучше чем мы))
Это можно применять к разным областям и есть аналоги, закрытый вариант от Google AlphaEvolve и открый openevolve. Но мне больше всего полюбилась Shinka.
Что это такое, я попросил еще обяснить notebooklm и сделать видео-подкаст (да да сам удивлен что в 1 клик удобно сделали).
Я до сих пор помню как на 1 курсе физмата… пробовали писать игру жизнь на паскаль. Вы тоже пробовали?
И вот, открытие последних недель для меня работа где скрестили подход LLM+эволюция!
ShinkaEvolve - https://sakana.ai/shinka-evolve/, помогает найти решение создавая мутации начального решения.
Вы даете ему начальное состояние программы… и он перебирает разные и ищет лучшее, выращивая поколения вашей программы…. наши дети будут лучше чем мы))
Это можно применять к разным областям и есть аналоги, закрытый вариант от Google AlphaEvolve и открый openevolve. Но мне больше всего полюбилась Shinka.
Что это такое, я попросил еще обяснить notebooklm и сделать видео-подкаст (да да сам удивлен что в 1 клик удобно сделали).
🔥3❤2👍1👎1
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
Тут появились целые пресеты, с которыми готовое приложение можно создать в пару кликов:
— Выбираем, что подключить к проекту: Veo 3, Nano Banana, поиск, чат-бот и др;
— Пишем свой промпт или жмем "I’m Feeling Lucky", чтобы получить случайную идею проекта, которую сервис реализует;
— Ждем пару минут, чтобы Gemini сгенерил полноценную тулзу которую можно затестить и внести любые правки.
• Попробовать
#neural #нейросети
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2👎1
Forwarded from Machinelearning
⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
1👍3❤2🔥1
Forwarded from Neurogen (muzaffar)
OpenEnv
Meta и Hugging Face запустили отрытое сообщество и платформу для создания и обмена агентными средами
Агенты могут автономно выполнять тысячи задач, но как правило одной lm мало. Агентам нужен доступ к правильным инструментам, но предоставлять доступ к миллионам инструментов напрямую небезопасно и нерационально.
Решение: Агентные Среды
Агентные среды - это защищённые песочницы, которые определяют всё необходимое для выполнения задачи:
Инструменты и API - только то, что нужно для конкретной задачи
Безопасность - изолированное выполнение с гарантиями
Аутентификация - безопасный доступ к внешним сервисам
Чёткая семантика - понимание требований задачи
OpenEnv Hub интегрируется в новый пост-тренинговый стек от Meta вместе с библиотеками TRL, SkyRL и Unsloth.
Возможности для разработчиков:
✅ Создавать и делиться средами, совместимыми с OpenEnv
✅ Взаимодействовать с средами как человек-агент
✅ Тестировать модели на решении задач в контролируемых условиях
✅ Изучать доступные инструменты и структуру наблюдений
Спецификация и RFCs
Выпущена OpenEnv 0.1 Spec (RFC) для сбора отзывов сообщества. В разработке находятся:
RFC 001 - архитектура основных компонентов (Environment, Agent, Task)
RFC 002 - базовый интерфейс окружения, упаковка и изоляция
RFC 003 - поддержка MCP инструментов
RFC 004 - расширенная поддержка вызовов инструментов
Применение
RL пост-тренинг - обучение RL-агентов с TRL, TorchForge, VeRL
Создание сред - разработка и тестирование собственных окружений
Воспроизведение SOTA - репликация методов вроде Code World Model
Развёртывание - единая среда для тренировки и инференса
Интеграции
OpenEnv уже поддерживается:
TRL от Hugging Face
Unsloth
Lightning.AI
Ссылки на openenv
Hugging Face
GitHub репозиторий с примерами
Google Colab
обсуждение в Discord
Meta и Hugging Face запустили отрытое сообщество и платформу для создания и обмена агентными средами
Агенты могут автономно выполнять тысячи задач, но как правило одной lm мало. Агентам нужен доступ к правильным инструментам, но предоставлять доступ к миллионам инструментов напрямую небезопасно и нерационально.
Решение: Агентные Среды
Агентные среды - это защищённые песочницы, которые определяют всё необходимое для выполнения задачи:
Инструменты и API - только то, что нужно для конкретной задачи
Безопасность - изолированное выполнение с гарантиями
Аутентификация - безопасный доступ к внешним сервисам
Чёткая семантика - понимание требований задачи
OpenEnv Hub интегрируется в новый пост-тренинговый стек от Meta вместе с библиотеками TRL, SkyRL и Unsloth.
Возможности для разработчиков:
Спецификация и RFCs
Выпущена OpenEnv 0.1 Spec (RFC) для сбора отзывов сообщества. В разработке находятся:
RFC 001 - архитектура основных компонентов (Environment, Agent, Task)
RFC 002 - базовый интерфейс окружения, упаковка и изоляция
RFC 003 - поддержка MCP инструментов
RFC 004 - расширенная поддержка вызовов инструментов
Применение
RL пост-тренинг - обучение RL-агентов с TRL, TorchForge, VeRL
Создание сред - разработка и тестирование собственных окружений
Воспроизведение SOTA - репликация методов вроде Code World Model
Развёртывание - единая среда для тренировки и инференса
Интеграции
OpenEnv уже поддерживается:
TRL от Hugging Face
Unsloth
Lightning.AI
Ссылки на openenv
Hugging Face
GitHub репозиторий с примерами
Google Colab
обсуждение в Discord
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1🤯1
Forwarded from Библиотека баз данных
Media is too big
VIEW IN TELEGRAM
🔥 Hugging Face снова выкатили полезные материалы.
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
❤2👍2🔥2
Forwarded from Data Secrets
О, Гарвард опубликовал отличную книгу по ML-системам
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Forwarded from LLM под капотом
Кейс с LLM под капотом - поиск видео для монтажа рекламы
Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.
Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.
Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.
Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.
Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).
Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.
А что тут можно сделать еще лучше?
(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.
А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:
(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования
Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.
В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше.
Ваш, @llm_under_hood 🤗
PS: Пост со списком всех кейсов
Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.
Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.
Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.
Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.
Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).
Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.
А что тут можно сделать еще лучше?
(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.
А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:
(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования
Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.
В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше.
Ваш, @llm_under_hood 🤗
PS: Пост со списком всех кейсов
❤3
Forwarded from Neural Kovalskii
Media is too big
VIEW IN TELEGRAM
SGR Agent Core 0.4.0 + UI
Запись стрима!
YouTube
RuTube
Разработка агента для работы с корпоративным Confluence на базе SGR Agent Core 0.4.0 с использованием локальной модели Qwen3-30B на vLLM.
00:00:00 - Подготовка окружения
- Настройка OBS и серверов (Yandex Cloud + 2x4090(48гб))
- Развертывание vLLM с Qwen3-30B-A3B-Instruct
00:15:00 - Тестирование инфраструктуры
- Проверка работы Qwen через OpenWebUI (~86 tokens/sec)
- Настройка мониторинга GPU
00:27:00 - Настройка SGR Agent Core
- Клонирование репозитория на удаленный сервер
- Подключение через Cursor с SSH
- Конфигурация agents.yaml и config.yaml
00:38:00 - Первый запуск агента
- Тестирование базового SGR Tool Calling Agent
- Запрос цены биткоина - успешно ($96k)
- Разбор двухфазного reasoning
00:52:00 - Разработка Confluence toolkit
- Создание confluence_tools.py с Cursor AI
- Три инструмента: full_text_search, space_search, page_retrieval
- Фиксы с правами доступа
01:10:00 - Тестирование Agentic RAG
- Поиск информации о проекте Smart Platform
- Агент нашел страницы, извлек контент, создал отчет
- Всё без векторизации и чанкинга!
01:26:00 - Запуск фронтенда
- Установка Node.js, настройка портов
- Демонстрация веб-интерфейса
01:36:00 - Финальный тест
- Сравнительный анализ двух проектов
- Объяснение архитектуры решения
01:42:00 - Завершение
- Итог: рабочий агентный RAG за 1.5 часа
- "Когда-нибудь придумаю красивую концовку"
Стек: SGR Agent Core, vLLM, Qwen3-30B, Confluence REST API, Cursor AI, vLLM, guidance
Как результат Агент ищет в Confluence без традиционного RAG pipeline - никаких векторных БД, эмбеддингов и чанкинга!
Запись стрима!
YouTube
RuTube
Разработка агента для работы с корпоративным Confluence на базе SGR Agent Core 0.4.0 с использованием локальной модели Qwen3-30B на vLLM.
00:00:00 - Подготовка окружения
- Настройка OBS и серверов (Yandex Cloud + 2x4090(48гб))
- Развертывание vLLM с Qwen3-30B-A3B-Instruct
00:15:00 - Тестирование инфраструктуры
- Проверка работы Qwen через OpenWebUI (~86 tokens/sec)
- Настройка мониторинга GPU
00:27:00 - Настройка SGR Agent Core
- Клонирование репозитория на удаленный сервер
- Подключение через Cursor с SSH
- Конфигурация agents.yaml и config.yaml
00:38:00 - Первый запуск агента
- Тестирование базового SGR Tool Calling Agent
- Запрос цены биткоина - успешно ($96k)
- Разбор двухфазного reasoning
00:52:00 - Разработка Confluence toolkit
- Создание confluence_tools.py с Cursor AI
- Три инструмента: full_text_search, space_search, page_retrieval
- Фиксы с правами доступа
01:10:00 - Тестирование Agentic RAG
- Поиск информации о проекте Smart Platform
- Агент нашел страницы, извлек контент, создал отчет
- Всё без векторизации и чанкинга!
01:26:00 - Запуск фронтенда
- Установка Node.js, настройка портов
- Демонстрация веб-интерфейса
01:36:00 - Финальный тест
- Сравнительный анализ двух проектов
- Объяснение архитектуры решения
01:42:00 - Завершение
- Итог: рабочий агентный RAG за 1.5 часа
- "Когда-нибудь придумаю красивую концовку"
Стек: SGR Agent Core, vLLM, Qwen3-30B, Confluence REST API, Cursor AI, vLLM, guidance
Как результат Агент ищет в Confluence без традиционного RAG pipeline - никаких векторных БД, эмбеддингов и чанкинга!
❤1👍1🔥1
Forwarded from Инструменты программиста
SurfSense — это open‑source альтернатива NotebookLM, Perplexity и Glean: AI‑агент для исследований, который подключается к вашим личным источникам (поисковые движки, Slack, Linear, Jira, ClickUp, Confluence, Notion, Gmail, YouTube, GitHub, Discord, Airtable, Google Calendar, Luma, Elasticsearch и другие).
Для тех, кто проспал последний год, NotebookLM — этосервис Google, где вы загружаете свои документы, и AI (Gemini) помогает вам суммировать, отвечать на вопросы, создавать FAQ, учебные материалы и подкасты, опираясь только на ваши источники.
Что делает SurfSense:
🟣 Поддерживает 100+ LLM (включая локальные Ollama) и 6000+ моделей эмбеддингов.
🟣 Продвинутый RAG: иерархические индексы (2‑уровневый), гибридный поиск (семантический + полнотекстовый), ранжирование (Pinecone, Cohere, Flashrank).
🟣 Подкаст‑агент: создаёт 3‑минутный подкаст менее чем за 20 секунд, поддерживает локальные TTS (Kokoro) и облачных провайдеров.
🟣 Поддержка 50+ форматов файлов (PDF, DOCX, видео, аудио, email и т.д.).
🟣 Self‑hostable: можно поднять через Docker Compose или вручную.
Быстрый старт:
🟣
🟣 Скопируйте
🟣
🟣 Откройте http://localhost:3000
Где попробовать:
GitHub: https://github.com/MODSetter/SurfSense
Сайт: https://surfsense.com
Discord: https://discord.gg/ejRNvftDp9
Технический стек: FastAPI, PostgreSQL (pgvector), LangGraph, LangChain, Celery, Redis, Next.js 15, React 19, TypeScript, Docker.
@prog_tools
Для тех, кто проспал последний год, NotebookLM — это
Что делает SurfSense:
🟣 Поддерживает 100+ LLM (включая локальные Ollama) и 6000+ моделей эмбеддингов.
🟣 Продвинутый RAG: иерархические индексы (2‑уровневый), гибридный поиск (семантический + полнотекстовый), ранжирование (Pinecone, Cohere, Flashrank).
🟣 Подкаст‑агент: создаёт 3‑минутный подкаст менее чем за 20 секунд, поддерживает локальные TTS (Kokoro) и облачных провайдеров.
🟣 Поддержка 50+ форматов файлов (PDF, DOCX, видео, аудио, email и т.д.).
🟣 Self‑hostable: можно поднять через Docker Compose или вручную.
Быстрый старт:
🟣
git clone https://github.com/MODSetter/SurfSense🟣 Скопируйте
.env.example в .env, добавьте API‑ключи (OpenAI, Tavily и т.д.).🟣
docker compose up -d🟣 Откройте http://localhost:3000
Где попробовать:
GitHub: https://github.com/MODSetter/SurfSense
Сайт: https://surfsense.com
Discord: https://discord.gg/ejRNvftDp9
Технический стек: FastAPI, PostgreSQL (pgvector), LangGraph, LangChain, Celery, Redis, Next.js 15, React 19, TypeScript, Docker.
@prog_tools
Media is too big
VIEW IN TELEGRAM
🔥2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images
Ничего себе! Метачка разродилась целым набором проектов.
Meta Segment Anything Model 3 - с кодом, весами, датасетами и кодом для файнтюна. Видео-сегментация и композ.
Segment Anything Playground - это демо для всех этих проектов, пока работает быстро и даже без регистрации.
И наконец: SAM 3D: Powerful 3D Reconstruction for Physical World Images
И вот это уже прям 3Д-генератор.
Там есть две модели. SAM 3D Objects для реконструкции объектов и сцен, и SAM 3D Body для оценки тела и формы человека.
На входе фото, на выходе 3Д. Чем не 3Д-генератор.
Причем 3Д-болваны получаются сразу со скелетом.
Они так и пишут про целевую аудиторию: 3Д моделинг, VR\AR, геймдев.
Я думаю, что не стоит ждать прям высокополигональных деталей, это больше про 3D reconstructions, но надо разбираться.
Тьма ссылок, посмотрите хотя бы видосы, это новый уровень.
https://ai.meta.com/blog/sam-3d/
https://ai.meta.com/blog/segment-anything-model-3/
Демо-плейграунд:
https://www.aidemos.meta.com/segment-anything
(там есть и обычное вырезание объектов по видео)
Кодищще:
https://github.com/facebookresearch/sam3
Статья: SAM 3: Segment Anything with Concepts
https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/
@cgevent
Ничего себе! Метачка разродилась целым набором проектов.
Meta Segment Anything Model 3 - с кодом, весами, датасетами и кодом для файнтюна. Видео-сегментация и композ.
Segment Anything Playground - это демо для всех этих проектов, пока работает быстро и даже без регистрации.
И наконец: SAM 3D: Powerful 3D Reconstruction for Physical World Images
И вот это уже прям 3Д-генератор.
Там есть две модели. SAM 3D Objects для реконструкции объектов и сцен, и SAM 3D Body для оценки тела и формы человека.
На входе фото, на выходе 3Д. Чем не 3Д-генератор.
Причем 3Д-болваны получаются сразу со скелетом.
Они так и пишут про целевую аудиторию: 3Д моделинг, VR\AR, геймдев.
Я думаю, что не стоит ждать прям высокополигональных деталей, это больше про 3D reconstructions, но надо разбираться.
Тьма ссылок, посмотрите хотя бы видосы, это новый уровень.
https://ai.meta.com/blog/sam-3d/
https://ai.meta.com/blog/segment-anything-model-3/
Демо-плейграунд:
https://www.aidemos.meta.com/segment-anything
(там есть и обычное вырезание объектов по видео)
Кодищще:
https://github.com/facebookresearch/sam3
Статья: SAM 3: Segment Anything with Concepts
https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/
@cgevent
👍3
Forwarded from Data Secrets
Это первая модель, которая пробила планку 80 на SWE bench verified. С ее 80.9% это теперь уверенная SOTA по кодингу.
Модель уже доступна в API, и, что самое приятное, цена относительно предыдущего Opus упала! Было 15$/75$, стало 5/25, ощутимое понижение.
Плюс, модель снова стала экономичнее относительно токенов: на среднем уровне ризонинга она достигает уровня Sonnet 4.5, используя на 76% меньше токенов. А при выкрученном на максимум бюджете обходит Sonnet аж на 4.3 процентных пункта (SWE bench), используя на 48% меньше токенов.
Anthropic пишут, что скормили Opus 4.5 внутренний экзамен, который они дают кандидатам при устройстве на работу. За 2 часа модель справилась с ним лучше, чем любой человек когда-либо в истории стартапа.
Что касается апдейтов в продукте:
– В Claude App добавили сжатие контекста, как в новом Codex. При достижении лимита старый контекст суммаризуется и передается в новое контекстное окно, и вы не упираетесь в конец диалога. Кроме того, теперь в десктопное приложение завезли Claude Code, и там его можно параллелить на разные задачки.
– Из беты вышли Claude для Chrome и для Excel.
– Теперь можно самостоятельно контролировать время размышлений, есть режимы low, high и medium.
🔥 www.anthropic.com/news/claude-opus-4-5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM