tg_image_167981469.png
24.7 KB
What's new:
• New MCP "project" scope now allows you to add MCP servers to .mcp.json files and commit them to your repository
В Claude Code обновление которые показывает тренд. То есть mcp сервера это часть тулинга разработки. Как maven repo, pip, sonar и тд. Через месяц уже будет видно новый ландшафт разработки
🚀 Claude научился искать в интернете!
Только что анонсировали крутую фишку для всех, кто работает с данными: ИИ-ассистент Claude теперь умеет искать информацию в сети в реальном времени!
Что это значит?
✔️ Самые свежие данные (курсы валют, новости, исследования)
✔️ Автоматические ссылки на источники для проверки
✔️ Примеры использования: сравнение товаров, анализ рынка, подготовка грантов
Кому пригодится?
👉 Менеджерам по продажам — для анализа трендов перед встречами
👉 Инвесторам — для оценки отчётов компаний
👉 Исследователям — для поиска научных публикаций
👉 Покупателям — сравнение цен и характеристик
Как попробовать?
Пока функция в бета-тесте для платных подписок в США, но скоро расширят географию. Включается в настройках профиля → Claude 3.7 Sonnet.
👉 Подробности: anthropic.com/news/web-search
#AI #Claude #Нейросети #Инновации
И это сообщение написано Claude)
Только что анонсировали крутую фишку для всех, кто работает с данными: ИИ-ассистент Claude теперь умеет искать информацию в сети в реальном времени!
Что это значит?
✔️ Самые свежие данные (курсы валют, новости, исследования)
✔️ Автоматические ссылки на источники для проверки
✔️ Примеры использования: сравнение товаров, анализ рынка, подготовка грантов
Кому пригодится?
👉 Менеджерам по продажам — для анализа трендов перед встречами
👉 Инвесторам — для оценки отчётов компаний
👉 Исследователям — для поиска научных публикаций
👉 Покупателям — сравнение цен и характеристик
Как попробовать?
Пока функция в бета-тесте для платных подписок в США, но скоро расширят географию. Включается в настройках профиля → Claude 3.7 Sonnet.
👉 Подробности: anthropic.com/news/web-search
#AI #Claude #Нейросети #Инновации
И это сообщение написано Claude)
Claude
Claude web search now available globally on all plans | Claude
Claude can now search the internet to provide up-to-date, cited responses on all plans worldwide. Get real-time insights for research, market analysis, and more.
👍5🔥1
Forwarded from Все о блокчейн/мозге/space/WEB 3.0 в России и мире
⚡️Anthropic обогнала OpenAI и Google DeepMind в создании ИИ для сложных и долгих задач
В свежем исследовании METR анализируют способности ИИ - моделей временной горизонт задачи — это время, которое требуется человеку для выполнения задачи, и которое ИИ может выполнить с определенной вероятностью успеха.
В центре исследования находится 50%-временной горизонт — длительность задач, где ИИ достигает успеха в 50% случаев. Это своего рода "средняя точка" возможностей моделей, которая позволяет измерять их прогресс.
В исследовании говорится, что Claude 3.7 Sonnet от Anthropic показал наилучшие результаты среди тестируемых моделей - может с 50% вероятностью выполнять задачи, которые занимают у человека ~ 59 минут, что превосходит результаты o1, GPT-4o, Gemini-2.0 и DeepSeek-R1.
С 2019 года временной горизонт лучших моделей ИИ удваивается примерно каждые 7 месяцев.
Если поднять планку до 80% успеха, временной горизонт сокращается до примерно 15 минут. Это показывает, что надежность остается слабым местом даже у топовых моделей.
Если темпы роста сохранятся, к 2028–2031 годам ИИ сможет брать на себя задачи, эквивалентные месяцу человеческой работы (около 167 часов). Это открывает перспективы для автоматизации сложных проектов.
Что движет прогрессом?
- Улучшение логических способностей моделей.
- Более умелое использование инструментов.
- Повышение надежности и устойчивости к ошибкам.
- Рост самосознания моделей (понимания своих пределов).
Проблемы и ограничения
- ИИ хуже справляется с "грязными" задачами — неструктурированными или с неясной обратной связью.
- Модели редко сами ищут дополнительную информацию, что ограничивает их инициативность.
- Большой разрыв между 50% и 80% надежностью говорит о том, что стабильность пока далека от идеала.
В свежем исследовании METR анализируют способности ИИ - моделей временной горизонт задачи — это время, которое требуется человеку для выполнения задачи, и которое ИИ может выполнить с определенной вероятностью успеха.
В центре исследования находится 50%-временной горизонт — длительность задач, где ИИ достигает успеха в 50% случаев. Это своего рода "средняя точка" возможностей моделей, которая позволяет измерять их прогресс.
В исследовании говорится, что Claude 3.7 Sonnet от Anthropic показал наилучшие результаты среди тестируемых моделей - может с 50% вероятностью выполнять задачи, которые занимают у человека ~ 59 минут, что превосходит результаты o1, GPT-4o, Gemini-2.0 и DeepSeek-R1.
С 2019 года временной горизонт лучших моделей ИИ удваивается примерно каждые 7 месяцев.
Если поднять планку до 80% успеха, временной горизонт сокращается до примерно 15 минут. Это показывает, что надежность остается слабым местом даже у топовых моделей.
Если темпы роста сохранятся, к 2028–2031 годам ИИ сможет брать на себя задачи, эквивалентные месяцу человеческой работы (около 167 часов). Это открывает перспективы для автоматизации сложных проектов.
Что движет прогрессом?
- Улучшение логических способностей моделей.
- Более умелое использование инструментов.
- Повышение надежности и устойчивости к ошибкам.
- Рост самосознания моделей (понимания своих пределов).
Проблемы и ограничения
- ИИ хуже справляется с "грязными" задачами — неструктурированными или с неясной обратной связью.
- Модели редко сами ищут дополнительную информацию, что ограничивает их инициативность.
- Большой разрыв между 50% и 80% надежностью говорит о том, что стабильность пока далека от идеала.
metr.org
Measuring AI Ability to Complete Long Tasks
We propose measuring AI performance in terms of the *length* of tasks AI agents can complete. We show that this metric has been consistently exponentially increasing over the past 6 years, with a doubling time of around 7 months. Extrapolating this trend…
Forwarded from эйай ньюз
Gemini 2.5 Pro
Наконец-то reasoning завезли в Gemini Pro. На бенчах себя показывает очень хорошо — на нескольких это SOTA, в большей части бенчей модель проигрывает только multiple attempts режимам других LLM. Длина контекста у Gemini 2.5 Pro — миллион токенов, потом обещают завезти два. Модель мультимодальная, но нативную генерацию картинок не завезли (надеюсь пока что).
Экспериментальное превью уже доступно в AI Studio и подписчикам Gemini Advanced, цен на API пока что нет. Кстати, заметьте как раньше OpenAI релизила прямо перед релизами гугла, а сейчас всё наоборот.
Блогпост
@ai_newz
Наконец-то reasoning завезли в Gemini Pro. На бенчах себя показывает очень хорошо — на нескольких это SOTA, в большей части бенчей модель проигрывает только multiple attempts режимам других LLM. Длина контекста у Gemini 2.5 Pro — миллион токенов, потом обещают завезти два. Модель мультимодальная, но нативную генерацию картинок не завезли (надеюсь пока что).
Экспериментальное превью уже доступно в AI Studio и подписчикам Gemini Advanced, цен на API пока что нет. Кстати, заметьте как раньше OpenAI релизила прямо перед релизами гугла, а сейчас всё наоборот.
Блогпост
@ai_newz
По слухам на следующей неделе будет мощный релиз Cursor где будет multi-tab vibe coding, то есть можно будет в несколько потоков кодить. Хотя чем это будет отличаться от tmux tabs + aider/claude code посмотрим…
Forwarded from Data Secrets
Пошел слух, что Anthropic релизит Sonnet 3.7 с контекстом 500к токенов (сейчас 200к)
Если правда, то будет имба для кодинга
Если правда, то будет имба для кодинга
https://wonderwhy-er.medium.com/claude-with-mcps-replaced-cursor-windsurf-how-did-that-happen-c1d1e2795e96
Интересный подход и деньги экономит
Интересный подход и деньги экономит
Medium
Claude with MCPs Replaced Cursor & Windsurf — How Did That Happen?
You can see in the screenshot that I was using Windsurf in December. But by January and February? It was gone from my workflow. So what…
https://x.com/openaidevs/status/1904957755829481737?s=46&t=o-gNuwBmunp1vKR4u9v13w
MCP 🤝 OpenAI Agents SDK
Ура
MCP 🤝 OpenAI Agents SDK
Ура
🔥1
Forwarded from Data Secrets
Вы не поверите, но GPT-4o теперь лучшая модель для кодинга
OpenAI только что обновили чекпоинт модели, и результаты на арене по сравнению с прошлой версией скакнули вот так:
- Math 14 место -> 2 место
- Hard Prompts 7 место -> 1 место
- Coding 5 место -> 1 место
- В целом 5 место -> 2 место
Сами разработчики пишут, что теперь моделька лучше следует инструкциям и воспринимает сложные промпты, лучше креативит и использует меньше эмодзи (ура)
На всех платных новый чекпоинт уже раскатили. Фри юзерам будет доступно в течение нескольких недель.
OpenAI только что обновили чекпоинт модели, и результаты на арене по сравнению с прошлой версией скакнули вот так:
- Math 14 место -> 2 место
- Hard Prompts 7 место -> 1 место
- Coding 5 место -> 1 место
- В целом 5 место -> 2 место
Сами разработчики пишут, что теперь моделька лучше следует инструкциям и воспринимает сложные промпты, лучше креативит и использует меньше эмодзи (ура)
На всех платных новый чекпоинт уже раскатили. Фри юзерам будет доступно в течение нескольких недель.
👍4👀1
На https://aider.chat/docs/leaderboards/ еще не бенчили. Но посмотрите кто на первом месте и с какими отрывом
👍1
И вот еще https://github.com/camel-ai/owl
🌟 Advanced AI Features for Your Needs 🌟
🚀 Online Search
Support for multiple search engines like Wikipedia, Google, DuckDuckGo, Baidu, and more for real-time information retrieval.
🎥 Multimodal Processing
Handle videos, images, and audio data seamlessly for enhanced understanding.
🌐 Browser Automation
Automate web interactions using Playwright: scrolling, clicking, navigation, downloading, and more.
📄 Document Parsing
Extract content from Word, Excel, PDF, and PowerPoint files into text or Markdown formats.
💻 Code Execution
Write and execute Python noscripts directly with integrated interpreter support.
🛠️ Built-in Toolkits
Access specialized tools like:
• ArxivToolkit for academic research
• ImageAnalysisToolkit for visual data
• MathToolkit for complex calculations
• VideoAnalysisToolkit, WeatherToolkit, and many more!
📖 Model Context Protocol (MCP)
A universal layer to standardize AI model interaction across tools and data sources.
🌟 Advanced AI Features for Your Needs 🌟
🚀 Online Search
Support for multiple search engines like Wikipedia, Google, DuckDuckGo, Baidu, and more for real-time information retrieval.
🎥 Multimodal Processing
Handle videos, images, and audio data seamlessly for enhanced understanding.
🌐 Browser Automation
Automate web interactions using Playwright: scrolling, clicking, navigation, downloading, and more.
📄 Document Parsing
Extract content from Word, Excel, PDF, and PowerPoint files into text or Markdown formats.
💻 Code Execution
Write and execute Python noscripts directly with integrated interpreter support.
🛠️ Built-in Toolkits
Access specialized tools like:
• ArxivToolkit for academic research
• ImageAnalysisToolkit for visual data
• MathToolkit for complex calculations
• VideoAnalysisToolkit, WeatherToolkit, and many more!
📖 Model Context Protocol (MCP)
A universal layer to standardize AI model interaction across tools and data sources.
GitHub
GitHub - camel-ai/owl: 🦉 OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
🦉 OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation - camel-ai/owl
Forwarded from Machinelearning
Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers).
MCP серверы являются микросервисами, которые могут быть использованы LLM для выполнения вашей задачи.
По сути это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд.
Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.!
Здесь можно найти платины на все случаи жизни:
•Автоматизация Браузера
• Облачные Платформы
• Командная Строка
• Коммуникации
• Базы данных
• Инструменты Разработчика
• Файловые Системы
• Финансы
• Игры
• Службы определения местоположения
• Маркетинг
• Мониторинг
• Поиск
• Спорт
• Путешествия И Транспорт
• Другие инструменты и интеграций
@ai_machinelearning_big_data
#mcp #ai #agents #awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
Захотел я в Cursor начать использовать Gemini 2.5 Pro и не вышло. В новых версиях нет поддержки custom models
НО на помощь пришел VS Code Insiders. Тут завезли поддержку custom models причем без хаков. Нажимаете на модель агента -> Manage Models -> Gemini -> вставляете ключ и выбираете доступные модели для ключа. Вуаля у вас в агентах Gemini 2.5 Pro
НО на помощь пришел VS Code Insiders. Тут завезли поддержку custom models причем без хаков. Нажимаете на модель агента -> Manage Models -> Gemini -> вставляете ключ и выбираете доступные модели для ключа. Вуаля у вас в агентах Gemini 2.5 Pro
Forwarded from Pavel Zloi
⚡️ OpenAI сегодня ВЕЧЕРОМ представит GPT-5 — новая модель уже прошла внутреннее тестирование и готова к релизу.
Главные изменения:
• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.
Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.
⚡️ Подробности — сегодня в 20:00 по МСК.
PS. Поздравляю с 1м апреля!
Главные изменения:
• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.
Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.
⚡️ Подробности — сегодня в 20:00 по МСК.
👍2👀1