🧠 UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИ
Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.
Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате
Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.
Почему это важно
Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление
UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты
Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.
Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.
Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.
https://huggingface.co/datasets/ulamai/UnsolvedMath
Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.
Выложен датасет UnsolvedMath — это:
- 1000+ открытых математических проблем
- 600+ задач из списка Эрдёша
- аккуратно структурировано в machine-friendly формате
Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.
Почему это важно
Обычные тесты:
- часто содержат задачи, похожие на обучающие данные
- проверяют знание, а не исследовательское мышление
UnsolvedMath:
- требует построения новых гипотез
- проверяет глубину логики
- показывает, способна ли модель делать научно полезные инсайты
Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.
Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.
Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.
https://huggingface.co/datasets/ulamai/UnsolvedMath
❤🔥11❤8🔥6
Один из лучших курсов по Парсинг на Stepik со скидкой 48%
Освой Python-парсинг так, как это делают в реальных проектах.
Не учебные “игрушки”, а рабочие инструменты для сбора данных с сайтов, API и динамических сервисов.
На курсе ты шаг за шагом пройдешь путь от нуля до уровня, где умеешь стабильно забирать данные, работать с защитами, динамикой и автоматизацией. Без воды - только то, что используют в продакшене.
В итоге ты сможешь не просто “писать на Python”, а решать практические задачи: анализ данных, мониторинг, автоматизация, фриланс-заказы и собственные проекты.
Сегодня можно забрать курс со скидкой 48%: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Автоматическое создание бэкапов каталога в Python
Сохрани себе простой скрипт на Python для автоматического создания бэкапа каталога. Это удобно, если нужно сохранить важные файлы перед их изменением. Скрипт использует библиотеку
https://www.youtube.com/shorts/lYVBn8R0UnQ
Сохрани себе простой скрипт на Python для автоматического создания бэкапа каталога. Это удобно, если нужно сохранить важные файлы перед их изменением. Скрипт использует библиотеку
shutil для копирования содержимого в другую папку с отметкой времени.
import os
import shutil
from datetime import datetime
def backup_directory(source_dir, backup_base_dir):
if not os.path.exists(source_dir):
print("Исходный каталог не существует.")
return
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
backup_dir = os.path.join(backup_base_dir, f"backup_{timestamp}")
shutil.copytree(source_dir, backup_dir)
print(f"Резервная копия создана в {backup_dir}")
source = "путь/к/вашему/каталогу"
backup_base = "путь/к/каталогу/бэкапов"
backup_directory(source, backup_base)
https://www.youtube.com/shorts/lYVBn8R0UnQ
👍7🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Теренс Тао говорит, что эпоха ИИ показывает одну неудобную вещь:
наше определение интеллекта было неверным.
Мы думали, что интеллект - это что-то туманное, почти мистическое. Интуиция. Осознанность. Глубокое понимание.
А потом приходит ИИ…
и начинает решать задачи, которые считались признаком “настоящего мышления”.
Но когда смотришь внутрь, там нет озарений, нет “понимания”.
Только:
• статистика
• нейросети
• предсказание следующего токена
• эвристики
• оптимизация
И всё.
Никакой магии. Никакого "внутреннего света разума".
И тут возникает неудобная мысль:
А вдруг это и есть большая часть того, что делаем мы?
Может, человеческое мышление - это тоже
огромный стек трюков, паттернов и предсказаний,
просто реализованный на биологическом железе.
ИИ не обесценивает интеллект. Он разбирает его на детали.
И оказывается, что “разум” может быть не чем-то мистическим,
а инженерной конструкцией.
И это, возможно, самое тревожное открытие всей AI-эры.
наше определение интеллекта было неверным.
Мы думали, что интеллект - это что-то туманное, почти мистическое. Интуиция. Осознанность. Глубокое понимание.
А потом приходит ИИ…
и начинает решать задачи, которые считались признаком “настоящего мышления”.
Но когда смотришь внутрь, там нет озарений, нет “понимания”.
Только:
• статистика
• нейросети
• предсказание следующего токена
• эвристики
• оптимизация
И всё.
Никакой магии. Никакого "внутреннего света разума".
И тут возникает неудобная мысль:
А вдруг это и есть большая часть того, что делаем мы?
Может, человеческое мышление - это тоже
огромный стек трюков, паттернов и предсказаний,
просто реализованный на биологическом железе.
ИИ не обесценивает интеллект. Он разбирает его на детали.
И оказывается, что “разум” может быть не чем-то мистическим,
а инженерной конструкцией.
И это, возможно, самое тревожное открытие всей AI-эры.
❤30💯15👍7👎6🔥5🤨5😱2
🚀 PolymathicAI выпустила огромный открытый датасет для ML-исследований -*The Well*
📦 Это коллекция численных физических симуляций общего назначения — всего ~15 ТБ данных, разбитых на 16 разнообразных наборов, включающих такие области, как:
• динамика жидкостей и турбулентность
• биологические системы
• акустическое рассеяние
• магнито-гидродинамика и моделирование внегалактических сред
• даже симуляции сверхновых 🌌
И всё это можно использовать для обучения и оценки моделей ML.
📊 Зачем это нужно:
ИИ и ML всё чаще используются для ускорения или замены тяжёлых физических симуляций (surrogate modeling), но до сих пор публичные данные были фрагментированы и маленькие. “The Well” даёт единый формат, большой объём и сложные динамические процессы - отличная база для:
• обучения нейросетей, которые предсказывают физическое поведение
• бенчмарков и сравнительных исследований
• создания более быстрых моделей вместо тяжёлых классических симуляторов
📚 Как использовать:
Проект предоставляет Python/PyTorch API - можно легко загрузить данные в даталоадер и использовать их в тренировке моделей. Данные доступны также через Hugging Face и в формате HDF5 для удобства.
💡 Это открытый ресурс с BSD-3-Clause лицензией, ориентированный на высокоуровневые ML-задачи и научные исследования.
Это может стать новым стандартным набором для обучения моделей, которые симулируют сложные физические системы вместо традиционных вычислительных методов.
🔗 Репозиторий на GitHub: github.com/PolymathicAI/the_well
📦 Это коллекция численных физических симуляций общего назначения — всего ~15 ТБ данных, разбитых на 16 разнообразных наборов, включающих такие области, как:
• динамика жидкостей и турбулентность
• биологические системы
• акустическое рассеяние
• магнито-гидродинамика и моделирование внегалактических сред
• даже симуляции сверхновых 🌌
И всё это можно использовать для обучения и оценки моделей ML.
📊 Зачем это нужно:
ИИ и ML всё чаще используются для ускорения или замены тяжёлых физических симуляций (surrogate modeling), но до сих пор публичные данные были фрагментированы и маленькие. “The Well” даёт единый формат, большой объём и сложные динамические процессы - отличная база для:
• обучения нейросетей, которые предсказывают физическое поведение
• бенчмарков и сравнительных исследований
• создания более быстрых моделей вместо тяжёлых классических симуляторов
📚 Как использовать:
Проект предоставляет Python/PyTorch API - можно легко загрузить данные в даталоадер и использовать их в тренировке моделей. Данные доступны также через Hugging Face и в формате HDF5 для удобства.
💡 Это открытый ресурс с BSD-3-Clause лицензией, ориентированный на высокоуровневые ML-задачи и научные исследования.
Это может стать новым стандартным набором для обучения моделей, которые симулируют сложные физические системы вместо традиционных вычислительных методов.
🔗 Репозиторий на GitHub: github.com/PolymathicAI/the_well
❤11👍7🔥6
Инженеры из MIT разработали кремниевые микро-структуры, которые превращают тепловые потери в ресурс для обработки данных. В основе лежит метод аналоговых вычислений: входная информация кодируется в виде температурных значений, а математическая операция выполняется в процессе диффузии тепла через специальный пористый материал.
Такая "тепловая математика" работает очень точно. Ученым удалось провести умножение матриц на векторы с точностью выше 99%. Чтобы добиться такого результата, форму и расположение пор в кремнии рассчитывали с помощью специальных алгоритмов.
Конечно, заменить видеокарты Nvidia для обучения ChatGPT эти чипы пока не смогут — есть вопросы к скорости передачи данных. Но у технологии есть крутое применение уже сейчас: датчики контроля оборудования.
mit.edu
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍5❤3😁2🥰1
Forwarded from Machinelearning
🚀 Релиз Claude Opus 4.6
Anthropic прокачали флагманскую модель: Opus 4.6 теперь лучше планирует, дольше держит сложные агентские задачи, стабильнее работает с огромными кодовыми базами и умеет находить собственные ошибки.
Главный апдейт - это 1 миллион токенов контекста (в бете). Такой объём позволяет держать в памяти большие проекты, длинные документы и сложные цепочки рассуждений без потери связности.
По результатам тестов Opus 4.6 показывает state-of-the-art в задачах:
• агентское программирование
• междисциплинарное рассуждение
• knowledge work
• агентский поиск
Параллельно расширяются возможности Claude в Excel, PowerPoint, Claude Code и API - чтобы модель могла глубже встраиваться в рабочие процессы, аналитику и разработку.
www.anthropic.com/news/claude-opus-4-6
@ai_machinelearning_big_data
Anthropic прокачали флагманскую модель: Opus 4.6 теперь лучше планирует, дольше держит сложные агентские задачи, стабильнее работает с огромными кодовыми базами и умеет находить собственные ошибки.
Главный апдейт - это 1 миллион токенов контекста (в бете). Такой объём позволяет держать в памяти большие проекты, длинные документы и сложные цепочки рассуждений без потери связности.
По результатам тестов Opus 4.6 показывает state-of-the-art в задачах:
• агентское программирование
• междисциплинарное рассуждение
• knowledge work
• агентский поиск
Параллельно расширяются возможности Claude в Excel, PowerPoint, Claude Code и API - чтобы модель могла глубже встраиваться в рабочие процессы, аналитику и разработку.
www.anthropic.com/news/claude-opus-4-6
@ai_machinelearning_big_data
❤9🔥1
Frontier - это не про «умнее модель», а про то, чтобы AI реально работал внутри компании и выполнял задачи от начала до конца.
Главная проблема корпоративных агентов сегодня не интеллект, а отсутствие контекста, доступа к системам и контроля.
Что делает Frontier:
- Общий семантический слой
Данные в компаниях разбросаны: CRM, тикеты, хранилища, внутренние сервисы.
Frontier объединяет их, чтобы агент работал с бизнес-сущностями (клиент, заказ, сделка), а не с разрозненными системами.
- Среда выполнения агентов
Агент может:
- работать с файлами
- запускать код
- вызывать инструменты
- управлять компьютером
- выполнять многошаговые процессы от начала до конца
- Память
Агенты сохраняют «воспоминания» о прошлых действиях и используют их для улучшения следующих запусков.
- Контроль качества
Встроенные механизмы оценки и обратной связи учат агента, что считается «хорошим результатом» именно для задач компании.
- Управление и безопасность
У каждого агента есть:
- собственная идентичность
- права доступа
- ограничения
- аудит действий
Это критично для корпоративных и регулируемых сред.
- Гибкое развертывание
Можно запускать:
- локально
- в корпоративном облаке
- в инфраструктуре OpenAI
Интеграция через открытые стандарты без необходимости переносить все системы.
Результаты пилотов:
- оптимизация процессов: с 6 недель до 1 дня
- +90% времени у sales на работу с клиентами
- до +5% роста производственного выпуска
Пока Frontier доступен ограниченному числу компаний. Широкий запуск ожидается в ближайшие месяцы.
Главный вывод: следующий этап AI — это не «умнее модель», а инфраструктура, которая превращает модель в полноценного цифрового сотрудника.
https://openai.com/ru-RU/index/introducing-openai-frontier/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤5
Крупная новость: компания Axiom заявляет, что их AI-система решила четыре ранее нерешённые математические задачи, включая сложную гипотезу из алгебраической геометрии, которую долго не могли полностью доказать математики.
Это ещё один сигнал, что возможности AI-рассуждения выходят за рамки простого распознавания шаблонов и приближаются к настоящему математическому мышлению.
Если результаты подтвердятся, такие системы могут значительно ускорить научные открытия
https://x.com/axiommathai/status/2019449659807219884
Это ещё один сигнал, что возможности AI-рассуждения выходят за рамки простого распознавания шаблонов и приближаются к настоящему математическому мышлению.
Если результаты подтвердятся, такие системы могут значительно ускорить научные открытия
https://x.com/axiommathai/status/2019449659807219884
👍14❤7🔥2👎1
🚀 Высокопроизводительная библиотека тензоров Axiom
Axiom — это открытая библиотека на C++, которая сочетает в себе простоту NumPy и PyTorch с высокой производительностью. Она предлагает интуитивно понятный API и поддержку GPU, обеспечивая отличные результаты в вычислениях.
🚀 Основные моменты:
- Python-подобный API с перегрузкой операторов
- Высокая производительность с SIMD и BLAS
- Полная поддержка GPU через Metal
- Интуитивные операции с тензорами и интеграция с einops
- Кроссплатформенная совместимость и надежные тесты
📌 GitHub: https://github.com/frikallo/axiom
#cpp
Axiom — это открытая библиотека на C++, которая сочетает в себе простоту NumPy и PyTorch с высокой производительностью. Она предлагает интуитивно понятный API и поддержку GPU, обеспечивая отличные результаты в вычислениях.
🚀 Основные моменты:
- Python-подобный API с перегрузкой операторов
- Высокая производительность с SIMD и BLAS
- Полная поддержка GPU через Metal
- Интуитивные операции с тензорами и интеграция с einops
- Кроссплатформенная совместимость и надежные тесты
📌 GitHub: https://github.com/frikallo/axiom
#cpp
GitHub
GitHub - Frikallo/axiom: High-performance C++ tensor library with NumPy/PyTorch-like API
High-performance C++ tensor library with NumPy/PyTorch-like API - Frikallo/axiom
❤🔥8👍4
🚀 Gemini Deep Think - новый режим для научных и математических задач
DeepMind представили Gemini Deep Think — режим рассуждения, созданный для сложных задач в науке, математике и исследованиях.
Главная идея — дать модели больше времени и вычислений на обдумывание, чтобы улучшить качество решений в задачах, где важна логика, а не скорость.
Что умеет Deep Think
- Выполняет глубокое многошаговое рассуждение
- Параллельно исследует несколько вариантов решения
- Сравнивает гипотезы и выбирает лучший результат
- Лучше справляется со сложной математикой и научными задачами
Где это интересно:
- Математические доказательства и сложные задачи
- Научные исследования и анализ данных
- Поиск новых идей и гипотез
- Долгие цепочки логических рассуждений
Почему это важно
Обычные модели оптимизированы на скорость ответа.
Deep Think делает ставку на другое:
меньше скорости → больше качества рассуждений.
Это особенно важно для:
- научных открытий
- инженерных задач
- исследований, где ошибка дорого стоит
Следующий этап развития AI - не просто быстрые ответы,
а модели, которые думают дольше и глубже, когда задача этого требует.
Источник:
https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/
DeepMind представили Gemini Deep Think — режим рассуждения, созданный для сложных задач в науке, математике и исследованиях.
Главная идея — дать модели больше времени и вычислений на обдумывание, чтобы улучшить качество решений в задачах, где важна логика, а не скорость.
Что умеет Deep Think
- Выполняет глубокое многошаговое рассуждение
- Параллельно исследует несколько вариантов решения
- Сравнивает гипотезы и выбирает лучший результат
- Лучше справляется со сложной математикой и научными задачами
Где это интересно:
- Математические доказательства и сложные задачи
- Научные исследования и анализ данных
- Поиск новых идей и гипотез
- Долгие цепочки логических рассуждений
Почему это важно
Обычные модели оптимизированы на скорость ответа.
Deep Think делает ставку на другое:
меньше скорости → больше качества рассуждений.
Это особенно важно для:
- научных открытий
- инженерных задач
- исследований, где ошибка дорого стоит
Следующий этап развития AI - не просто быстрые ответы,
а модели, которые думают дольше и глубже, когда задача этого требует.
Источник:
https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/
❤11👍4🔥4🥰1
ИИ начинает решать задачи, которые раньше были под силу только топ-математикам.
OpenAI провели внутренний эксперимент: модель с минимальным участием человека участвовала в челлендже First Proof — это 10 исследовательских задач на переднем крае современной математики.
Результаты всего за 1 неделю:
- Модель предложила решения для большинства задач
- Минимум 6 решений эксперты считают вероятно корректными
- Работа велась практически без человеческого контроля
Важно: это был всего лишь побочный спринт, а не полноценный исследовательский проект.
Но вывод очевиден:
ИИ больше не просто объясняет математику.
Он начинает создавать новую математику.
Следующий этап развития:
- поиск доказательств сложных теорем
- обнаружение новых закономерностей
- помощь в научных исследованиях
- ускорение фундаментальных открытий
Мы движемся от AI-ассистента к AI-исследователю.
И это только начало.
https://x.com/merettm/status/2022517085193277874
OpenAI провели внутренний эксперимент: модель с минимальным участием человека участвовала в челлендже First Proof — это 10 исследовательских задач на переднем крае современной математики.
Результаты всего за 1 неделю:
- Модель предложила решения для большинства задач
- Минимум 6 решений эксперты считают вероятно корректными
- Работа велась практически без человеческого контроля
Важно: это был всего лишь побочный спринт, а не полноценный исследовательский проект.
Но вывод очевиден:
ИИ больше не просто объясняет математику.
Он начинает создавать новую математику.
Следующий этап развития:
- поиск доказательств сложных теорем
- обнаружение новых закономерностей
- помощь в научных исследованиях
- ускорение фундаментальных открытий
Мы движемся от AI-ассистента к AI-исследователю.
И это только начало.
https://x.com/merettm/status/2022517085193277874
👍16🤨14❤8👎2🥰1😁1
Forwarded from Machinelearning
История началась с тупика, в который зашли математики Давей Чен и Квентин Жендрон. Пять лет назад они пытались разобраться в сложном разделе алгебраической геометрии, связанном с дифференциалами - элементами математического анализа, используемыми для измерения расстояний вдоль изогнутых поверхностей.
В ходе работы они зашли в тупик: их рассуждения опирались на странную формулу из теории чисел, но ни доказать ее, ни обосновать они не смогли. В итоге Чэнь и Жандрон опубликовали работу, в которой представили свою идею как гипотезу, а не как теорему.
Попытки Чена использовать ChatGPT для поиска решения оказались бесполезными - языковая модель просто не справлялись с задачей такого уровня абстракции.
Прорыв случился благодаря встрече Чена с Кеном Оно, известным математиком, работающим в Axiom. Узнав о проблеме, Кен загрузил исходные данные в систему AxiomProver.
К утру ИИ выдал готовое доказательство. Prover обнаружил связь между задачей Чена-Жендрона и числовым феноменом, впервые изученным еще в XIX веке. Затем система сама разработала доказательство и, что важно, самостоятельно его верифицировала.
По словам Кена Оно, алгоритм нашел то, что упустили все люди-эксперты, работавшие над темой. Результат оформили и опубликовали на arXiv и положили на Github.
AxiomProver представляет собой гибрид LLM и уникального движка для логического вывода с использованием языка формальной верификации Lean. Этот микс позволяет системе строить цепочки рассуждений, математическая корректность которых проверяется автоматически.
Подход напоминает систему AlphaProof от Google, но, по словам CEO Axiom Карины Хонг, они задействовали ряд новых техник, позволяющих выходить за рамки простого поиска по существующей литературе.
Еще более впечатляющим выглядит кейс системы с гипотезой Феля, касающейся сизигий - математических соотношений, в которых числа выстраиваются в алгебраические закономерности. Она опирается на формулы, впервые обнаруженные более 100 лет назад в записных книжках легендарного индийского математика Сринивасы Рамануджана.
В этом случае AxiomProver не просто заполнил недостающее звено - он разработал доказательство от начала до конца. Воспроизвести трек доказательства может любой желающий, код - на Github.
К слову, система буквально в январе этого года решила все 12 задач математической олимпиады Putnam, самого престижного конкурса для студентов бакалавриата.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍9🔥3
⚡️ Датасет **UltraData-Math** сейчас в топе трендов на HuggingFace. Его идея - сделать упор не на объём, а на качество данных для обучения математическому мышлению.
После обучения на этом наборе модель MiniCPM-1.2B показала результат 61.79 на GSM8K - уровень, который обычно требуют гораздо более крупные модели и массивные датасеты. При этом она сохраняет общие знания.
Что в нём особенного
- Минимум шума - данные проходят оценку качества, слабые примеры удаляются
- Не только учебники — есть обсуждения с форумов, разборы решений и многошаговые диалоги
- Несколько уровней плотности (L1–L3) — можно выбрать вариант под свои вычислительные ресурсы
Вывод простой
Для сильной модели важен не только размер, но и чистота и полезность данных.
Датасет подойдёт тем, кто работает с дообучением или обучает компактные модели.
https://huggingface.co/datasets/openbmb/UltraData-Math
После обучения на этом наборе модель MiniCPM-1.2B показала результат 61.79 на GSM8K - уровень, который обычно требуют гораздо более крупные модели и массивные датасеты. При этом она сохраняет общие знания.
Что в нём особенного
- Минимум шума - данные проходят оценку качества, слабые примеры удаляются
- Не только учебники — есть обсуждения с форумов, разборы решений и многошаговые диалоги
- Несколько уровней плотности (L1–L3) — можно выбрать вариант под свои вычислительные ресурсы
Вывод простой
Для сильной модели важен не только размер, но и чистота и полезность данных.
Датасет подойдёт тем, кто работает с дообучением или обучает компактные модели.
https://huggingface.co/datasets/openbmb/UltraData-Math
❤9
Forwarded from Machinelearning
Создатели Claude проанализировали миллионы взаимодействий в Claude Code и через публичный API с помощью их инструмента Clio, чтобы понять, сколько автономии люди реально дают агентам, в каких доменах те работают и насколько рискованны их действия.
За 3 месяца медианная длина самых долгих сессий в Claude Code почти удвоилась - с 25 до более чем 45 минут непрерывной работы. Причем рост плавный и не коррелирует с релизами новых моделей.
Это значит, что дело не только в возможностях модели, а в том, как пользователи выстраивают взаимодействие с агентом.
Среди тех, кто только начинает пользоваться Claude Code, около 20% сессий запускают с полным авто-апрувом, это когда агент выполняет все действия без подтверждений.
У опытных пользователей эта доля больше 40%. Плюс они чаще прерывают агента вручную.
Аnthropic предполагает, что это не потому, что теряется доверие, а потому что они берутся за более сложные задачи и лучше понимают, когда нужно вмешаться.
На самых сложных задачах Claude Code останавливается и задает уточняющий вопрос вдвое чаще, чем по принудительному прерыванию человеком.
Почти половина всей агентной активности через API - за разработкой ПО.
Есть прирост использования в медицине, финансах и кибербезопасности, но пока в небольших объемах.
По итогу исследования, Аnthropic пришла к выводу, что эффективный надзор за агентами требует не только технических ограничений, но и новой инфраструктуры пост-деплойного мониторинга и новых паттернов взаимодействия - где и человек, и агент совместно управляют автономией и рисками.
Текущие модели, по данным компании, технически способны на большую самостоятельность, чем им позволяют на практике.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤1