Forwarded from XOR
Anthropic опубликовали бесплатный гайд, как выжать из ИИ-агентов максимум
Спойлер — всё дело в эффективном контекст-инженеринге: надо правильно структурировать, задавать агенту роль, дробить задачи. Внутри много советов по работе и примеров.
Вайбкодеры, сохраняем☕️
@xor_journal
Спойлер — всё дело в эффективном контекст-инженеринге: надо правильно структурировать, задавать агенту роль, дробить задачи. Внутри много советов по работе и примеров.
Вайбкодеры, сохраняем
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Позволяет создать нативные приложенийяпрямо внутри ChatGPT.
Идея простая: теперь не нужно выходить из ChatGPT, чтобы делать привычные вещи.
Можно прямо в чате работать с дизайном в Figma, создавать презентации в Canva, искать жильё на Booking или смотреть курсы на Coursera — всё в одном окне.
Платформа поддерживает авторизацию, оплату и подключение внешних сервисов,
а значит, ChatGPT становится центром, где совмещаются ИИ, приложения и автоматизация задач.
Скоро разработчики (вайбкодеры) смогут добавлять свои приложения и зарабатывать на них через ChatGPT SDK.
По сути это убийца n8n и Zapier.
Это интуитивно понятный**визуальный конструктор**, где можно создавать своих ИИ-агентов без единой строчки кода.
Просто перетаскиваешь блоки, подключаешь MCP и ChatKit — и агент сам ищет файлы, анализирует данные и выполняет задачи.
Инструмент уже доступен всем.
OpenAi умеют в дизайн, должно быть удобно.
Можно уже попробовать: https://platform.openai.com/agent-builder
Вышел из беты, получил интеграцию со Slack и собственный SDK.
На демо агент управлял светом и экраном голосом - без кода.
На презентации заявили, что теперь почти весь их код пишется с помощью Codex
Благодаря Codex разработчики OpenAI стали отправлять на 70% больше pull-request’ов в неделю, чем раньше.
Теперь у кодекса появляется интеграция со Slack и SDK, чтобы разработчики могли встраивать его в свои рабочие процессы.
Прямо в эфире Codex написал код для управления камерой, сам собрал интерфейс и **запустил готовое при
$15 за ввод и $120 за вывод за 1M токенов
Gpt-realtime-mini - на 70% дешевле, подходит для мгновенных ответов и потоковых задач
Можно будет генерировать видео прямо из кода
PS: Agent Builder выглядит действительно интересно - интуитивный, гибкий, инструмент с большим потенциало
м.
А вот насколько полезными окажутся приложения внутри ChatGPT, не особо понятно.
OpenAI не боится экспериментировать.
Они развивают ChatGPT как платформу, ищут
новые варианты захвата рынка и пробуют смелые идеи. Это дорогого стоит.
Их интерфейс просто топ: минимализм, аккуратность, почти в духе Apple. UX - на уровне искусства.
У OpenAI уже более 800 млн активных пользователей в неделю и они обрабатывают 6 миллиардов токенов в минуту!
К концу года число пользователей, похоже, вплотную подойдёт к 1 миллиарду.
Но гонка только начинается.
Google явно готовит ответ - Gemini 3 обещает быть топом. Другие игроки тоже не дремлют.
@ai_machinelearning_big_data
#openai #chatgpt #llm #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Создание AI-агентов становится одной из самых востребованных профессий на рынке.
Теперь вы можете научиться этом на курсе.
Курс научит вас реализовывать четыре ключевых паттерна дизайна агентов:
- Reflection - как агент анализирует свои ответы и улучшает их
- Tool use - модель выбирает, какие инструменты использовать (поиск, почта, календарь, код и т.д.)
- **Planning**- ИИ планирует и разбивает задачу на подзадачи
- Multi-agent collaboration - взаимодействие нескольких агентов, как сотрудников в команде
Andrew Ng делает акцент на оценке (evals) и анализе ошибок - ключевых навыках для успешной отладки агентных систем.
В курсе есть практика, где можно создадите deep research-агента, который умеет искать, синтезировать и формировать отчёты, применяя все эти паттерны.
- Все уроки и код на Python
- Очень подробно и пошагало объяснены все вунтренности
- В курсе рассматриваются для самые популярные фреймворками для создания ИИ агентнов
Требование для учащихся - базовые знания Python
@ai_machinelearning_big_data
#AI #AgenticAI #AndrewNg #DeepLearningAI #AIagents
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🔥2
Forwarded from Нейронавт | Нейросети в творчестве
Tiny Recursive Model (TRM)
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
Samsung придумал новую архитектуру рекурсивного мышления для построения языковых моделей, которая при размере всего 7М параметров (!!!) — оказалась круче DeepSeek-R1, Gemini 2.5 Pro и o3-mini в тестах на логику и мышление.
Работает так:
1. Делает первый черновой ответ.
2. Думает над ним внутри себя.
3. Проверяет и исправляет свои мысли.
4. Перерабатывает ответ, чтобы он был точнее.
5. Повторяет, пока не будет уверен в своем решении.
* Маленькая: всего 7 миллионов параметров, это в 10 000 раз меньше, чем у современных LLM
* Эффективная: работает лучше больших моделей, но требует меньше ресурсов.
* Логика важнее всего: TRM показывает, что хорошая архитектура важнее объема данных.
* Доступная: может работать на слабых устройствах, не нужны мощные сервера.
Неплохо, в следующем году будем пользоваться модельками уровня DeepSeek локально на телефоне?
Гитхаб
Препринт
#research #llm #TRM
👎4🤯3
Forwarded from Neurogen (muzaffar)
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпустили недавно гайд по промптингу Sora 2. Нашел для вас готовый, собранный шаблон, по сути главный и самый лучший.
Свое видео сгенерированное по шаблону прикрепил к посту
Шаблон
Мой промпт к видео в посте:
И вот вам еще один сайт на котором можно получить код https://formbiz.biz/
Гайд по промпту
Свое видео сгенерированное по шаблону прикрепил к посту
Шаблон
[Prose scene denoscription in plain language. Describe characters, costumes, scenery, weather and other details. Be as denoscriptive to generate a video that matches your vision.]
Cinematography:
Camera shot: [framing and angle, e.g. wide establishing shot, eye level]
Mood: [overall tone, e.g. cinematic and tense, playful and suspenseful, luxurious anticipation]
Actions:
- [Action 1: a clear, specific beat or gesture]
- [Action 2: another distinct beat within the clip]
- [Action 3: another action or dialogue line]
Dialogue:
[If the shot has dialogue, add short natural lines here or as part of the actions list. Keep them brief so they match the clip length.]
Мой промпт к видео в посте:
[Prose scene denoscription in plain language]
A young woman stands on the rooftop of a neon-lit Tokyo building at night. Her silver jacket reflects the glow of digital billboards, and rain gently falls around her. The city stretches infinitely below — cars, lights, and holographic ads painting the skyline. Steam rises from nearby vents as wind blows strands of her wet hair across her face.
Cinematography:
Camera shot: Medium close-up, slowly dolly out to reveal the cityscape behind her.
Mood: Cinematic and melancholic, with a sense of quiet determination.
Actions:
She looks down at a glowing holographic wrist display, scanning incoming data.
She exhales, closes her eyes briefly, and lifts her head toward the horizon.
She whispers softly, “It’s time.”
Dialogue:
“It’s time.”
И вот вам еще один сайт на котором можно получить код https://formbiz.biz/
Гайд по промпту
Forwarded from Life2film
На той неделе решил поучаствовать в конкурсе - https://wundernn.io - предсказания для алгоритмической высокочастотной торговли на биржах. (В датасете нет подробностей что за данные и тп, просто рандомные названия для 32 сталбцов)
И добился для себя офигенных результатов!
Из 2000 участников уже 11…
А было вначале 200, потом 150, 140, 80, 40, 15, 11…
Чем ближе тем выше спортивный интерес))
Я использую для себя новые подходы, изучаю нейронки для предсказания на timeseries данных.
Если интересно, то за основу взял эту архитектуру… и ее развивал, ансамбли и тп.
https://github.com/ditschuk/pytorch-tsmixer
пытался более мощные и новые, типа этой https://github.com/SamsungSAILMontreal/TinyRecursiveModels
но пока из старичков хочу выжать…
Тк ограниченные условия:
1. Решение в архиве zip не более 20мб!
2. Время выполнения на 1 цпу не более часа…
И это жестко все ограничивает, но и делает интересным решением.
В итоге получаются нейронки небольшие которые на цпу могут предсказывать рынок!)
PS. Но подробности уже после конкурса 1 декабря, после результатов.
И добился для себя офигенных результатов!
Из 2000 участников уже 11…
А было вначале 200, потом 150, 140, 80, 40, 15, 11…
Чем ближе тем выше спортивный интерес))
Я использую для себя новые подходы, изучаю нейронки для предсказания на timeseries данных.
Если интересно, то за основу взял эту архитектуру… и ее развивал, ансамбли и тп.
https://github.com/ditschuk/pytorch-tsmixer
пытался более мощные и новые, типа этой https://github.com/SamsungSAILMontreal/TinyRecursiveModels
но пока из старичков хочу выжать…
Тк ограниченные условия:
1. Решение в архиве zip не более 20мб!
2. Время выполнения на 1 цпу не более часа…
И это жестко все ограничивает, но и делает интересным решением.
В итоге получаются нейронки небольшие которые на цпу могут предсказывать рынок!)
PS. Но подробности уже после конкурса 1 декабря, после результатов.
👍2🔥2
Forwarded from Russian OSINT
This media is not supported in your browser
VIEW IN TELEGRAM
С помощью технологии DeepSeek OCR мы извлекли все наборы данных из таблиц и диаграмм, содержащихся в более чем 500 000 научных работ по искусственному интеллекту на портале arXiv. Затраты на реализацию проекта составили 1000 долларов США.
Теперь вы можете отслеживать наиболее актуальные бенчмарки и находить наборы данных, о существовании которых ранее не было известно.
Для сравнения: выполнение аналогичной задачи с использованием технологии Mistral OCR обошлось бы в 7500 долларов США
На следующей неделе мы опубликуем набор данных статей arXiv в формате markdown, обработанных с помощью DeepSeek OCR.
Создан, чтобы предоставить преподавателям LLM высококачественный предварительный учебный ресурс, который не нагружает серверы arXiv ботами для сбора данных.
Посмотрите наши наборы данных и бенчмарки, проиндексированные DeepSeek OCR:
https://www.alphaxiv.org/?datasets=true
— делятся впечатлениями alphaXiv.
Особенность DeepSeek OCR в том, что технология не читает текст традиционным способом, а как бы фотографирует его, превращая в компактное изображение, затем анализирует изображение. Такой подход позволяет ИИ-решениям обрабатывать огромные объемы документов намного эффективнее. Главное новшество это способность сжимать текстовую информацию в 10, а иногда и в 20 раз. Модель преобразует тысячи текстовых токенов в несколько сотен визуальных токенов. Таким образом, снижается вычислительная нагрузка при обработке длинных документов, позволяя ИИ анализировать контекст быстрее и дешевле.
DeepSeek OCR умеет не просто распознавать текст, но и проводить глубокий синтаксический анализ, а также извлекать структурированную информацию из сложных элементов, таких как:
https://github.com/deepseek-ai/DeepSeek-OCR
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Forwarded from Поляков считает: AI, код и кейсы
SGR-паттерн: как заставить маленькие модели работать как большие
В конце августа 2025 Валерий Ковальский (автор канала NeuralDeep) запилил готовую либу для SGR-паттерна на GitHub. Репозиторий быстро собрал звезды и оброс контрибьюторами — теперь его упоминают даже в самых неожиданных местах.
Сам Валерий считает, что на базе этого подхода появятся стартапы на миллион долларов. И я с ним соглашусь: если даже на банальном Structured Output по всему миру уже заработаны миллионы, то SGR открывает ещё больше возможностей.
🔍 Боль разработчиков: когда LLM пропускает шаги
Обычно нам недостаточно просто текста от модели. Нужно, чтобы она выполняла задачи: вызывала функцию расчета, искала в интернете или уточняла запрос у пользователя.
Привычные паттерны вроде ReAct это делают, но есть проблема: на маленьких моделях они пропускают шаги. Модель может не вызвать нужный инструмент, хотя должна была. На больших моделях это тоже бывает, но реже.
Хуже всего то, что это ломает пользовательский опыт. Разработчикам приходится городить костыли, а решения получаются слабыми и некрасивыми.
📊 Конкретные цифры провала Function Calling
Вот реальные данные из бенчмарка BFCL для семейства Qwen3 в режиме Agentic Web Search (когда модель сама решает, вызывать ли инструмент):
🔸 Qwen3-8B: только 15% точности
🔸 Qwen3-4B: всего 2% точности
🔸 Qwen3-1.7B: лишь 4.5% точности
Даже при нативной поддержке Function Calling маленькие модели не понимают, когда нужно вызывать инструменты. Типичный результат: {"tool_calls": null, "content": "Текст вместо вызова функции"}.
⚡ Как SGR решает проблему
SGR фактически разделяет два этапа: reasoning (рассуждения) и execution (исполнение).
На этапе reasoning модель через Structured Output жёстко описывает, какие инструменты нужно вызвать и почему. Затем эти инструменты вызываются программно, без участия LLM.
Такой подход формализует бизнес-логику вызова инструментов и делает эту задачу удобной для отладки. Все шаги рассуждений видны, проверяемы и воспроизводимы.
🛠️ Готовая библиотека от комьюнити
Репозиторий SGR Deep Research — это не просто концепция, а готовая система с OpenAI-совместимым API. Можно отнаследоваться от BaseTool и передать свой кастомный набор инструментов в параметре toolkit агенту.
В либе реализовано 5 типов агентов: от чистого SGR до гибридных подходов с Function Calling. Есть поддержка стриминга, прерывания агента для уточнений и автоматическое сохранение отчетов.
🔐 Концепция гарантирующих паттернов
SGR можно назвать гарантирующим паттерном в работе с LLM. В данном случае он гарантирует вызов определённого инструмента даже на маленьких моделях.
Structured Output — тоже гарантирующий паттерн, но другой: он гарантирует, что ответ будет в чёткой структуре и полноте.
Это не альтернативы, а комплементарные техники. SGR использует SO для этапа рассуждений, а затем добавляет детерминированное исполнение.
🚀 Пушка для локальных моделей
Особенно важен SGR для локальных моделей, которые работают на приватных серверах. Они менее "умные" чем облачные GPT-5 или Claude Sonnet 4, но SGR помогает компенсировать это ограничение.
Если материал оказался полезным — ставьте реакции, пишите комментарии.
---
🔗 Оригинальная концепция SGR: https://abdullin.com/schema-guided-reasoning/
🔗 Репозиторий SGR Deep Research: https://github.com/vamplabAI/sgr-deep-research
----
Поляков считает — про ИИ, рекламу и аналитику.
В конце августа 2025 Валерий Ковальский (автор канала NeuralDeep) запилил готовую либу для SGR-паттерна на GitHub. Репозиторий быстро собрал звезды и оброс контрибьюторами — теперь его упоминают даже в самых неожиданных местах.
Сам Валерий считает, что на базе этого подхода появятся стартапы на миллион долларов. И я с ним соглашусь: если даже на банальном Structured Output по всему миру уже заработаны миллионы, то SGR открывает ещё больше возможностей.
💡 Проблема: я всё чаще встречаю, как SGR путают с альтернативой Structured Output. Это не так. Давайте разберемся, в чем реальный прорыв технологии.
🔍 Боль разработчиков: когда LLM пропускает шаги
Обычно нам недостаточно просто текста от модели. Нужно, чтобы она выполняла задачи: вызывала функцию расчета, искала в интернете или уточняла запрос у пользователя.
Привычные паттерны вроде ReAct это делают, но есть проблема: на маленьких моделях они пропускают шаги. Модель может не вызвать нужный инструмент, хотя должна была. На больших моделях это тоже бывает, но реже.
Хуже всего то, что это ломает пользовательский опыт. Разработчикам приходится городить костыли, а решения получаются слабыми и некрасивыми.
📊 Конкретные цифры провала Function Calling
Вот реальные данные из бенчмарка BFCL для семейства Qwen3 в режиме Agentic Web Search (когда модель сама решает, вызывать ли инструмент):
🔸 Qwen3-8B: только 15% точности
🔸 Qwen3-4B: всего 2% точности
🔸 Qwen3-1.7B: лишь 4.5% точности
Даже при нативной поддержке Function Calling маленькие модели не понимают, когда нужно вызывать инструменты. Типичный результат: {"tool_calls": null, "content": "Текст вместо вызова функции"}.
⚡ Как SGR решает проблему
SGR фактически разделяет два этапа: reasoning (рассуждения) и execution (исполнение).
На этапе reasoning модель через Structured Output жёстко описывает, какие инструменты нужно вызвать и почему. Затем эти инструменты вызываются программно, без участия LLM.
Такой подход формализует бизнес-логику вызова инструментов и делает эту задачу удобной для отладки. Все шаги рассуждений видны, проверяемы и воспроизводимы.
🎯 Буст точности 5-10% — это стандартный результат для SGR. А на маленьких моделях разница ещё выше.
🛠️ Готовая библиотека от комьюнити
Репозиторий SGR Deep Research — это не просто концепция, а готовая система с OpenAI-совместимым API. Можно отнаследоваться от BaseTool и передать свой кастомный набор инструментов в параметре toolkit агенту.
В либе реализовано 5 типов агентов: от чистого SGR до гибридных подходов с Function Calling. Есть поддержка стриминга, прерывания агента для уточнений и автоматическое сохранение отчетов.
🔐 Концепция гарантирующих паттернов
SGR можно назвать гарантирующим паттерном в работе с LLM. В данном случае он гарантирует вызов определённого инструмента даже на маленьких моделях.
Structured Output — тоже гарантирующий паттерн, но другой: он гарантирует, что ответ будет в чёткой структуре и полноте.
Это не альтернативы, а комплементарные техники. SGR использует SO для этапа рассуждений, а затем добавляет детерминированное исполнение.
🚀 Пушка для локальных моделей
Особенно важен SGR для локальных моделей, которые работают на приватных серверах. Они менее "умные" чем облачные GPT-5 или Claude Sonnet 4, но SGR помогает компенсировать это ограничение.
Если материал оказался полезным — ставьте реакции, пишите комментарии.
---
🔗 Оригинальная концепция SGR: https://abdullin.com/schema-guided-reasoning/
🔗 Репозиторий SGR Deep Research: https://github.com/vamplabAI/sgr-deep-research
----
Поляков считает — про ИИ, рекламу и аналитику.
👍1
Forwarded from Life2film
Media is too big
VIEW IN TELEGRAM
Эволюционное программирование!
Я до сих пор помню как на 1 курсе физмата… пробовали писать игру жизнь на паскаль. Вы тоже пробовали?
И вот, открытие последних недель для меня работа где скрестили подход LLM+эволюция!
ShinkaEvolve - https://sakana.ai/shinka-evolve/, помогает найти решение создавая мутации начального решения.
Вы даете ему начальное состояние программы… и он перебирает разные и ищет лучшее, выращивая поколения вашей программы…. наши дети будут лучше чем мы))
Это можно применять к разным областям и есть аналоги, закрытый вариант от Google AlphaEvolve и открый openevolve. Но мне больше всего полюбилась Shinka.
Что это такое, я попросил еще обяснить notebooklm и сделать видео-подкаст (да да сам удивлен что в 1 клик удобно сделали).
Я до сих пор помню как на 1 курсе физмата… пробовали писать игру жизнь на паскаль. Вы тоже пробовали?
И вот, открытие последних недель для меня работа где скрестили подход LLM+эволюция!
ShinkaEvolve - https://sakana.ai/shinka-evolve/, помогает найти решение создавая мутации начального решения.
Вы даете ему начальное состояние программы… и он перебирает разные и ищет лучшее, выращивая поколения вашей программы…. наши дети будут лучше чем мы))
Это можно применять к разным областям и есть аналоги, закрытый вариант от Google AlphaEvolve и открый openevolve. Но мне больше всего полюбилась Shinka.
Что это такое, я попросил еще обяснить notebooklm и сделать видео-подкаст (да да сам удивлен что в 1 клик удобно сделали).
🔥3❤2👍1👎1
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
Тут появились целые пресеты, с которыми готовое приложение можно создать в пару кликов:
— Выбираем, что подключить к проекту: Veo 3, Nano Banana, поиск, чат-бот и др;
— Пишем свой промпт или жмем "I’m Feeling Lucky", чтобы получить случайную идею проекта, которую сервис реализует;
— Ждем пару минут, чтобы Gemini сгенерил полноценную тулзу которую можно затестить и внести любые правки.
• Попробовать
#neural #нейросети
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2👎1
Forwarded from Machinelearning
⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
1👍3❤2🔥1
Forwarded from Neurogen (muzaffar)
OpenEnv
Meta и Hugging Face запустили отрытое сообщество и платформу для создания и обмена агентными средами
Агенты могут автономно выполнять тысячи задач, но как правило одной lm мало. Агентам нужен доступ к правильным инструментам, но предоставлять доступ к миллионам инструментов напрямую небезопасно и нерационально.
Решение: Агентные Среды
Агентные среды - это защищённые песочницы, которые определяют всё необходимое для выполнения задачи:
Инструменты и API - только то, что нужно для конкретной задачи
Безопасность - изолированное выполнение с гарантиями
Аутентификация - безопасный доступ к внешним сервисам
Чёткая семантика - понимание требований задачи
OpenEnv Hub интегрируется в новый пост-тренинговый стек от Meta вместе с библиотеками TRL, SkyRL и Unsloth.
Возможности для разработчиков:
✅ Создавать и делиться средами, совместимыми с OpenEnv
✅ Взаимодействовать с средами как человек-агент
✅ Тестировать модели на решении задач в контролируемых условиях
✅ Изучать доступные инструменты и структуру наблюдений
Спецификация и RFCs
Выпущена OpenEnv 0.1 Spec (RFC) для сбора отзывов сообщества. В разработке находятся:
RFC 001 - архитектура основных компонентов (Environment, Agent, Task)
RFC 002 - базовый интерфейс окружения, упаковка и изоляция
RFC 003 - поддержка MCP инструментов
RFC 004 - расширенная поддержка вызовов инструментов
Применение
RL пост-тренинг - обучение RL-агентов с TRL, TorchForge, VeRL
Создание сред - разработка и тестирование собственных окружений
Воспроизведение SOTA - репликация методов вроде Code World Model
Развёртывание - единая среда для тренировки и инференса
Интеграции
OpenEnv уже поддерживается:
TRL от Hugging Face
Unsloth
Lightning.AI
Ссылки на openenv
Hugging Face
GitHub репозиторий с примерами
Google Colab
обсуждение в Discord
Meta и Hugging Face запустили отрытое сообщество и платформу для создания и обмена агентными средами
Агенты могут автономно выполнять тысячи задач, но как правило одной lm мало. Агентам нужен доступ к правильным инструментам, но предоставлять доступ к миллионам инструментов напрямую небезопасно и нерационально.
Решение: Агентные Среды
Агентные среды - это защищённые песочницы, которые определяют всё необходимое для выполнения задачи:
Инструменты и API - только то, что нужно для конкретной задачи
Безопасность - изолированное выполнение с гарантиями
Аутентификация - безопасный доступ к внешним сервисам
Чёткая семантика - понимание требований задачи
OpenEnv Hub интегрируется в новый пост-тренинговый стек от Meta вместе с библиотеками TRL, SkyRL и Unsloth.
Возможности для разработчиков:
Спецификация и RFCs
Выпущена OpenEnv 0.1 Spec (RFC) для сбора отзывов сообщества. В разработке находятся:
RFC 001 - архитектура основных компонентов (Environment, Agent, Task)
RFC 002 - базовый интерфейс окружения, упаковка и изоляция
RFC 003 - поддержка MCP инструментов
RFC 004 - расширенная поддержка вызовов инструментов
Применение
RL пост-тренинг - обучение RL-агентов с TRL, TorchForge, VeRL
Создание сред - разработка и тестирование собственных окружений
Воспроизведение SOTA - репликация методов вроде Code World Model
Развёртывание - единая среда для тренировки и инференса
Интеграции
OpenEnv уже поддерживается:
TRL от Hugging Face
Unsloth
Lightning.AI
Ссылки на openenv
Hugging Face
GitHub репозиторий с примерами
Google Colab
обсуждение в Discord
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1🤯1
Forwarded from Библиотека баз данных
Media is too big
VIEW IN TELEGRAM
🔥 Hugging Face снова выкатили полезные материалы.
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
❤2👍2🔥2
Forwarded from Data Secrets
О, Гарвард опубликовал отличную книгу по ML-системам
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Forwarded from LLM под капотом
Кейс с LLM под капотом - поиск видео для монтажа рекламы
Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.
Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.
Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.
Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.
Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).
Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.
А что тут можно сделать еще лучше?
(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.
А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:
(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования
Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.
В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше.
Ваш, @llm_under_hood 🤗
PS: Пост со списком всех кейсов
Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.
Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.
Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.
Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.
Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).
Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.
А что тут можно сделать еще лучше?
(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.
А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:
(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования
Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.
В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше.
Ваш, @llm_under_hood 🤗
PS: Пост со списком всех кейсов
❤3