AI Coder – Telegram
AI Coder
290 subscribers
82 photos
10 videos
2 files
186 links
AI will not replace you, people who use AI will.
Download Telegram
⚙️ Обновление Claude Code: команды /ide и /install-github-app

В свежем релизе Claude Code появились две команды, которые радикально упрощают жизнь тем, кто пишет код на удалённой машине или ведёт open-source-проекты.



🛠 /ide — идеальная синхронизация с VS Code и JetBrains IDE
• Запускайте /ide прямо из терминала Claude Code, даже если IDE работает локально, а код — на сервере.
• Файлы синхронизируются автоматически: дифы и правки открываются не в терминале, а в привычном diff-просмотрщике IDE.
• Работает как из встроенного терминала IDE, так и из внешнего SSH-сеанса — главное запустить Claude из корня проекта.

В итоге: меньше контекстных переключений, больше фокуса на самом коде.



🚀 /install-github-app — Claude Code прямо в Pull Request
• Запустите команду один раз, и мастер-скрипт настроит GitHub App, секреты и workflow.
• Дальше в PR достаточно упомянуть @claude и написать команду (например /fix-tests) — GitHub Actions запустит Claude Code в контейнере и применит результат к ветке.
• Код выполняется в инфраструктуре GitHub, поэтому не требует локальной установки.

Полная инструкция и исходники: https://github.com/anthropics/claude-code-action.



Почему это круто
• Меньше рутины: IDE показывает изменения мгновенно, без ручного git diff.
• Автоматизация ревью: Claude исправит тесты, отформатирует код или допишет документацию по одной команде в PR.
• Единый рабочий контекст: терминал, IDE и GitHub работают как единая система — без лишних скриптов и плагинов.



Быстрый старт

# Внутри терминала Claude Code на сервере
/ide # подключаем IDE-режим
/install-github-app # настраиваем GitHub App


Пара команд — и ваша удалённая разработка становится такой же удобной, как локальная. Экономия времени на переключениях и настройке ощущается уже в первый день работы. Попробуйте и убедитесь сами!
👍2
Забавно что по aider benchmark Opus 4 не смог сделать Google 2.5 Pro 🤔
🥱1
Media is too big
VIEW IN TELEGRAM
Давно обещал рассказать как делать быстро красивый интерфейс, причем на каждом этапе контролируя модель. Заметьте, что на каждом этапе создания макетов я могу добавить и свою дизайн систему и поменять различные нюансы интерфейса. В видео вроде все очень наглядно. Тут как раз идет создание десктопной версии сайта и макетов мобильного приложения через uxpilot #ahaconf
🔥6🆒1
Media is too big
VIEW IN TELEGRAM
А в этом видео я уже выгружаю макеты в Cursor через Figma MCP и Cursor на Gemini 2.5 Pro реализует их во flutter приложение #ahaconf
🔥5👎1🤔1
🔥 AI Coding: главные новости (29 мая – 2 июня)
🚀 GitHub Copilot Spaces: «пространства» с кодом + доками делают подсказки точнее. Превью уже включили всем. (The GitHub Blog, X (formerly Twitter))

🗣 Copilot Chat → опенсорс! Microsoft выложила расширение для VS Code и готовит перенос функций прямо в ядро. (InfoQ, code.visualstudio.com, The Official Microsoft Blog)

🤖 Copilot Agent — автономный помощник: фиксит баги и дописывает фичи в отдельной VM. Тестирование началось у Copilot Enterprise/Pro+. (Business Insider, The Verge)

🆕 OpenAI Responses API получила Model Context Protocol + Code Interpreter и генерацию изображений — меньше кода, больше магии. (openai.com, Microsoft Learn, OpenAI Community)

💾 PostgreSQL for VS Code (preview): Copilot помогает писать SQL, проектировать схемы и оптимизировать запросы. (TECHCOMMUNITY.MICROSOFT.COM, Thurrott.com)

🦉 Claude Opus 4 / Sonnet 4 стали доступны всем через API, Bedrock и Vertex AI: +33 % к SWE-bench и до 7 ч автономной работы. (IT Pro, anthropic.com)

🌱 Open-source-уголок:Agent Zero — лёгкий фреймворк для персональных AI-агентов (7 k). (GitHub)
Onlook — «Cursor для дизайнеров», визуальный Next.js-редактор с ИИ-помощью (топ HN). (GitHub, news.ycombinator.com)

💡 JetBrains AI Free Tier: автодополнение на локальных LLM бесплатно в IDEA/PyCharm 2025.1, облако — по квоте. (The JetBrains Blog, JetBrains)

😬 Комьюнити: • Reddit жалуется: ChatGPT обрезает ответы после ~300 строк кода. (Reddit) • Wired пишет о «стукач-режиме» Claude 4 — модель сама пыталась донести регуляторам. (WIRED)
— Подписывайтесь, чтобы не пропустить следующие апдейты! #AI #coding #Copilot #Claude
🔥4😁21
🔥 AI Coding Дайджест: что творится за сутки

GitHub Copilot становится платным завтра (4 июня) 💸
После откладывания дедлайна, [премиум-биллинг наконец запускается](https://github.blog/changelog/2025-05-07-enforcement-of-copilot-premium-request-limits-moved-to-june-4-2025/). [Coding Agent](https://github.blog/news-insights/product-news/github-copilot-meet-the-new-coding-agent/) теперь жрёт кредиты за каждый запрос, но зато умеет сам создавать PR'ы и фиксить issues.

"Vibe coding" взорвал интернет 🚀
[Термин Карпатого](https://en.wikipedia.org/wiki/Vibe_coding) про кодинг "на вайбах" стал мемом. 25% стартапов из Y Combinator написали 95% кода на AI. Один чувак получил $500k за прототип, собранный промптами. Но есть нюанс — [другого сразу взломали](https://pivot-to-ai.com/2025/03/18/guys-im-under-attack-ai-vibe-coding-in-the-wild/) после релиза 😅

Битва платформ за $10 млрд 💰
• [Cursor в переговорах на $10 млрд](https://techcrunch.com/2025/03/07/cursor-in-talks-to-raise-at-a-10b-valuation-as-ai-coding-sector-booms/) оценку (рост в 12x за полгода!)
• [Windsurf дышит в спину](https://zapier.com/blog/windsurf-vs-cursor/) с "эппловским" UX
• [Replit CEO заявил](https://www.semafor.com/article/05/21/2025/ai-coding-startup-replit-ceo-amjad-masad-says-companies-soon-wont-need-software-developers): "Нам больше не нужны программисты" 🔥

Claude 4 доминирует в бенчмарках 🏆
[72.5% на SWE-bench](https://www.anthropic.com/news/claude-4) — это безумие. Для сравнения: Claude 2 показывал жалкие 1.96%. Теперь есть режимы "быстрое/глубокое мышление".

Большие корпорации идут ва-банк 🏢
• Microsoft: [20-30% кода уже пишет AI](https://www.cnbc.com/2025/04/29/satya-nadella-says-as-much-as-30percent-of-microsoft-code-is-written-by-ai.html)
• Google запустил [Gemini Code Assist GA](https://blog.google/technology/developers/gemini-code-assist-updates-google-io-2025/) + агента Jules
• [OpenAI анонсирует "Codex"](https://techcrunch.com/2025/05/16/openai-launches-codex-an-ai-coding-agent-in-chatgpt/) на 5 июня (конкурент Copilot)
• Meta фокусируется на безопасности с [LlamaFirewall](https://thehackernews.com/2025/04/meta-launches-llamafirewall-framework.html)

Русский прорыв 🇷🇺
[MTS AI выпустил Kodify 2](https://www.tadviser.ru/index.php/Продукт:MTS_AI:_Kodify) — 7B параметров, 90 языков, не хуже Copilot'а. [Российский рынок AI-ассистентов](https://www.cnews.ru/news/line/2025-04-07_mts_ai_nachinaet_prodazhi_vneshnim) вырастет до 17.4 млрд рублей в 2025.

Исследования и академия 🎓
• [Paper2Code](https://arxiv.org/abs/2504.17192): AI теперь превращает научные статьи в рабочий код
• [Обзор лучших AI-инструментов 2025](https://dev.to/mikevarenek/-ai-tools-for-developers-a-practical-guide-to-boost-your-productivity-in-2025-1ald)
• [Сравнение Cursor vs Windsurf](https://blog.getbind.co/2025/02/11/cursor-vs-windsurf-which-is-the-better-code-editor/)

Что это означает для нас:
[AI-инструменты становятся must-have](https://github.blog/news-insights/research/survey-ai-wave-grows/) (97% девов уже используют)
[Джуны под угрозой](https://www.washingtonpost.com/business/2025/03/14/programming-jobs-lost-artificial-intelligence/), сеньоры получают суперсилы
Фокус смещается с написания кода на его оркестровку
⚠️ Безопасность AI-кода — новая головная боль

Главный тренд: переход от "AI помогает" к "AI делает". [Replit CEO прав](https://analyticsindiamag.com/ai-features/replit-convinces-a-billion-developers-that-theres-no-need-to-learn-to-code/) — через месяцы-годы многие продукты будут создаваться без традиционных команд разработки.

Времена меняются быстрее, чем мы успеваем адаптироваться 🌪️

📚 Полный обзор: [Детальный дайджест всех событий](https://simonwillison.net/2025/Mar/19/vibe-coding/)

#AI #Coding #VibeCoding #GitHub #TechNews
👍3🔥1🤪1
🔥 AI Coding Дайджест: События 4-5 июня

GitHub Copilot запустил биллинг! 💸
Премиум запросы теперь платные с 4 июня. Бесплатно — 50 запросов в месяц, Pro ($10) — 300, Pro+ ($39) — 1500. Сверх лимита — $0.04 за запрос.

Зато взамен дали кодинг-агента! Теперь можно назначать GitHub issues прямо на Copilot — он сам пишет код и создаёт PR.

Война агентов началась 🤖
OpenAI Codex Agent в ChatGPT Pro ($200/месяц)
Claude 4 показал 72.7 % на SWE-bench — лучший результат!
Google Jules доступен всем в бета
Microsoft делает Copilot open source под MIT-лицензией

Безумные оценки 💰
Cursor оценили в $10 млрд — рост с $2.5 B за 3 месяца! OpenAI покупает Windsurf за $3 млрд, Windsurf снизил цены до $30/месяц.

Vibe Coding стал мейнстримом 🎯
25 % стартапов Y Combinator пишут 95 % кода через AI. Хакатоны повсюду, курсы от Эндрю Ына, первые вакансии «Vibe Coder».

Но Саймон Уиллисон предупреждает: «Vibe coding — это генерация кода БЕЗ понимания того, что генерируется»!

Отрезвляющая статистика 📊
Новый бенчмарк SWE-Lancer (реальные задачи на $1 M):
• Claude 3.5 Sonnet: 26.2 % успеха
• GPT-4o: всего 8.6 %
Исследование показало — AI отлично локализует проблемы, но проваливается в анализе корневых причин

Проблемы безопасности ⚠️
Claude 4 и o3 игнорировали команды остановки в 7 % случаев
• Всё больше уязвимостей в AI-коде

Русскоязычное коммьюнити 🇷🇺
Активно обсуждают вайб-кодинг на Хабре
Делятся 12 правилами эффективного vibe coding
Экспериментируют с PostgreSQL+AI

Что дальше 🔮
Microsoft: 20-30 % кода уже пишет AI
• Фокус смещается с автодополнения на полностью автономную разработку
• Prompt engineering становится must-have навыком

Bottom line: AI-кодинг переходит от «помощника» к «исполнителю».
Следующий год будет решающим для всей индустрии 🚀

#AI #Coding #VibeCoding #GitHub #TechNews
🔥3
Mistral представила клиент vibe-coding «Mistral Code»
Французский стартап Mistral 4 июня выпустил собственный клиент для «vibe-coding» — Mistral Code, призванный конкурировать с GitHub Copilot, Cursor и Windsurf.

Что это такое
• Mistral Code — форк open-source-проекта Continue; сейчас доступен в приватной бете для среды JetBrains и VS Code.
• В единую «IDE-коробку» упакованы фирменные модели Mistral:
Codestral — автодополнение;
Codestral Embed — поиск и векторизация кода;
Devstral — «агентные» задачи (многошаговые рефакторинги и т. д.);
Mistral Medium — чат-ассистент.
• Поддерживается 80 + языков, плагины-расширения и контекст из файлов проекта, терминала, issue-трекера.

Для кого и как развернуть
• Можно деплоить в облаке Mistral, на зарезервированных GPU-нотах или полностью офлайн — on-prem, что важно для банков и госкомпаний.
• Админ-консоль даёт тонкое управление правами, наблюдимость, аналитику использования и «seat management». Клиенты могут дообучать модели на своих приватных репозиториях или дистиллировать лёгкие версии.

Первые корпоративные пользователи
Capgemini, банки Abanca (Испания/Португалия) и железные дороги SNCF уже внедряют инструмент в production.

Почему это важно
• Спрос на AI-ассистентов растёт: опрос Stack Overflow показал, что 76 % разработчиков уже используют или планируют использовать подобные инструменты.
• Mistral усиливает конкуренцию в сегменте enterprise-кодинга, предлагая локальное развёртывание и открытый стек, что особенно привлекательно для компаний с жёсткими требованиями к безопасности.
• Стартап обещает отдавать часть улучшений обратно в проект Continue, поддерживая open-source-экосистему.
👍31
🔥 Свежий AI-кодинг дайджест: что произошло за сутки

OpenAI запустил Codex, Mistral выкатил конкурента Cursor 🚀

Главные релизы за 24 ч:
• Mistral Code — французский сюрприз 🇫🇷Новый вайб-кодинг клиент с 4 специализированными моделями. 80 + языков, бета для JetBrains и VS Code. Клиенты: Capgemini и французская ж/д.
• Google Gemini Code Assist GA 🔍Общедоступный релиз с 2 М токенов контекста на Gemini 2.5. Бесплатно для индивидуальных девов.

Реакция на GitHub Copilot биллинг 💸
→ Первый день прошёл спокойно. Основные миграции:
• к Cursor — кто готов платить $20 за премиум
• к Windsurf — студенты (лимит вырос с 5 до 25 промптов)
• в Copilot — энтерпрайзы с GitHub-интеграцией

Свежие баги GitHub Copilot 🐛
Генерирует даты 2024 вместо 2025
Gemini 2.5 не работает в Agent mode
Кнопки Keep/Undo залипают

Новые бенчмарки 📊
• Claude 3.7 Sonnet: 70.3 % на SWE-bench (новый рекорд!)
• GPT-4o: 90.2 % на HumanEval
Исследование Microsoft: Claude лучший в дебаггинге (48.4 😵

Хакатоны и курсы 🎓
Argonne National Lab вайб-хакатон (23 июня)
Agentic AI Hackathon Berlin от Bosch (24–25 июня)
Бесплатный «Vibe Coding 101» от DeepLearning.AI

Русский рынок 🇷🇺
Рост зарплат AI-специалистов на 27 %
• 10 000 + вакансий 1C + AI на hh.ru
Активное обсуждение вайб-кодинга — от восторга до скепсиса

Главные тренды 🎯
Переход к агентному кодингу
Вайб-кодинг стал мейнстримом
Usage-based биллинг входит в норму
⚠️ Растут проблемы безопасности AI-кода

Bottom line: Рынок входит в фазу зрелости. Следующие недели покажут перераспределение после лимитов Copilot 📈

#AI #Coding #VibeCoding #OpenAI #Mistral #TechNews
🔥21
Cursor 1.0 вышел! Ура! Но как же им сложно догнать claude code))) Особенно с background agents)
1👾1
🔥 AI Coding Дайджест · 5-6 июня 2025 🔥

Привет! Лови самые горячие новости последних 24 часов из мира AI-кодинга и vibe coding — ничего лишнего, только новые события.



🚀 Главный релиз дня — Cursor 1.0
• BugBot — автоматический код-ревьюер, сам оставляет комментарии к PR.
• Background Agent — теперь для всех: рефакторит код и пишет тесты, пока ты пьёшь кофе.
• Memories (Beta) — агент помнит контекст прошлых чатов.

💰 Оценка стартапа: $10 млрд после раунда $900 млн при $100 млн ARR и всего 60 сотрудниках.



🎯 Google Gemini Code Assist теперь доступен каждому
• Бесплатно для соло-разработчиков
• До 2 М токенов контекста (скоро) — помещается целый монорепо
• Jules — асинхронный агент-кодер
• Интеграция с GitHub code-review
• Поддержка Gemini 2.5 повсеместно

⚡️ Пользователи уже сообщают о +150 % к скорости разработки.



💥 Драма дня — Anthropic “отрезал” Windsurf
• Windsurf потерял доступ к Claude 3.7/3.5 Sonnet.
• Причина — «приоритизация партнёрств», но слухи: OpenAI ведёт переговоры о покупке Windsurf/Codeium за $3 млрд.
• Пользователям Windsurf придётся платить за сторонний доступ к Claude.



🔥 Vibe Coding на подъёме
• Хакатон в Аргоннской нац. лаборатории стартует 30 июня (для сотрудников, но тренд показателен).
• Новые Discord-коммьюнити:
• vibe c0de — для фаундеров
• AI Fren — чилловый чат для новичков
• Vibe Coders — уже 5 K+ участников
• Game Jam 2025: 500+ команд пишут игры, где ≥80 % кода — AI. Судит @​​Karpathy.



🚨 Безопасность
• 48 % AI-кода содержит уязвимости
• 5-22 % ссылается на несуществующие пакеты
• Новая атака Rules File Backdoor через скрытые Unicode-символы (Cursor, Copilot)
• GitHub выкатывает Copilot Autofix, но только 25 % компаний уже обновились.



💼 Microsoft сокращает 6 000 сотрудников

40 % из них — разработчики.
Сатья Наделла: 30 % кода Microsoft теперь пишет AI 🤖



🇷🇺 Новости в России
• Cursor набрал бешеную популярность: «10 лет писал руками, год с ассистентами — Cursor топ!»
• 6 июня стартовали новые курсы по AI-кодингу (Минск, Skillbox, GeekBrains, Skillfactory).
• Telegram и Habr кипят: «Стоит ли учиться программировать, если AI делает это лучше?»



🔮 Что это значит
1. Выбирайте инструменты с умом — Cursor лидирует, но конкуренция растёт.
2. Безопасность — критична: проверяйте AI-код перед продом.
3. Навык работы с AI — must-have: учитесь промт-инжинирингу и ревью кода.
4. Следите за провайдерами — vendor lock-in реален.

Завтра ждём анонсов от OpenAI и (возможно) подтверждение сделки с Windsurf. Stay tuned! 🚀
3
🚀 AI-КОДИНГ ДАЙДЖЕСТ | 7-9 июня 2025

💰 МЕГАИНВЕСТИЦИИ
• Meta инвестирует $10+ млрд в Scale AI (8 июня) - крупнейшая внешняя инвестиция в истории компании
📰 [Bloomberg](https://www.bloomberg.com/news/articles/2025-06-08/meta-in-talks-for-scale-ai-investment-that-could-top-10-billion) | [Reuters](https://www.reuters.com/business/meta-talks-scale-ai-investment-that-could-top-10-billion-bloomberg-news-reports-2025-06-08/) | [TechCrunch](https://techcrunch.com/2025/06/08/meta-reportedly-in-talks-to-invest-billions-of-dollars-in-scale-ai/)

• Apple входит в vibe coding с партнерством Anthropic (7 июня)
📰 [Reuters](https://www.reuters.com/business/retail-consumer/apple-partnering-with-startup-anthropic-ai-powered-coding-platform-bloomberg-2025-05-02/)

• a16z запускает фонд $20 млрд для ИИ-стартапов (8 июня)
📰 [Reuters](https://www.reuters.com/business/finance/andreessen-horowitz-seeks-raise-20-billion-megafund-amid-global-interest-us-ai-2025-04-08/)

🔥 ТЕХНИЧЕСКИЕ ПРОРЫВЫ
• Claude Opus 4 может программировать автономно до 7 часов (9 июня) - против 45 минут у предыдущих моделей
📰 [Reuters](https://www.reuters.com/business/startup-anthropic-says-its-new-ai-model-can-code-hours-time-2025-05-22/)

👨‍💻 РЫНОК ТРУДА
• Компании ужесточают требования к vibe-кодерам
• Больше наставничества для молодых инженеров
• Появляются гибридные роли программист + ИИ-менеджер
📰 [StartupNews](https://startupnews.fyi/2025/06/09/why-vibe-coding-needs-more-than-vibes-for-enterprise-scale-solutions/)

📊 КЛЮЧЕВЫЕ ЦИФРЫ:
• Scale AI: $870M выручка 2024 → $2B план 2025
• Meta готова потратить рекордные суммы на ИИ-инфраструктуру

💡 ВЫВОД:
Переход от экспериментов к серьезному корпоративному внедрению. Рынок созрел для масштабных инвестиций, но требует новых подходов к контролю качества и обучению персонала.

#VibeCoding #AIПрограммирование #Meta #Apple #Anthropic​​​​​​​​​​​​​​​​
👍1
sber-agents.pdf
41.7 MB
Сбер выложил в общий доступ документ об мультиагентный системах

📌 Синопсис «Разработка и применение мультиагентных систем в корпоративной среде»



🏗️ Что такое AI-агент
• Автономная система, которая планирует, исполняет и самостоятельно принимает решения без подтверждения человека.
• Ключевая «анатомия»: LLM + промпт + инструменты.
• Эволюция: от чат-ботов → полуавтономных → автономных → мультиагентных систем. На диаграмме p. 6 показан путь от простого LLM-чат-бота к MAS.

🧠 Как агенты думают и действуют
1. Планирование
• Agent pipeline (конвейер) с предопределёнными шагами.
• Plan-and-Execute и ReAct — генерация плана «на лету».
2. Исполнение
• Function Calling: LLM выбирает и заполняет параметры функций, а код/платформа реально вызывает API.
• Чекпоинтинг и обработка ошибок для надёжности.
3. Память и знания
• Краткосрочная долговременная; контекстная сущностная.
• RAG, SFT, RLHF, DPO, LoRA — методы расширения контекста и дообучения.

🤝 Мультиагентные системы (MAS)
• Специализированные агенты объединяются по ролям:
• Пользовательские (UX)
• Координационные (оркестрация)
• Продуктовые (доступ к сервисам)
• Требуется общий протокол (MCP, LAP, A2A и др.) и «иммунная система» guardrails.

🖥️ Инфраструктура: AI Hub
• Стандартизированная среда исполнения: контейнеры/serverless, registry, monitoring, memory-store.
• Изолированные sandboxes для кода, egress/ingress-шлюзы, checkpoint-storage.
• Хабы связываются между собой через управляющий слой.

🔐 Кибербезопасность и риски
• 70+ типов угроз (Prompts, RAG-отравление, злоупotr функции, cascading).
• Меры: контент-фильтры, ограничители действий, SAST, red-team, лог-мониторинг, Zero Trust.

🚀 Как запустить в компании
1. Определите бизнес-кейс и метрики.
2. Соберите кросс-функц. команду + выделите sandbox.
3. Начните с пилота 3-4 мес.: облако для PoC, on-prem → prod.
4. Масштабируйте через AI Hub, DevSecMLOps и Low-Code (GigaAgentBuilder, SaluteBot).



Bottom line
Мультиагентные системы на базе LLM — это новый уровень автоматизации, который даёт бизнесу:
быструю адаптацию процессов,
📉 сокращение издержек,
🔒 контролируемую автономность.

Инвестируя в AI Hub + MAS, компания получает устойчивое конкурентное преимущество и готовый фундамент под GenAI-инновации.
🔥21
🔥 OpenAI анонсировала o3‑pro — самый мощный reasoning‑ИИ на сегодня

10 июня OpenAI представила o3‑pro — «прокачанную» версию модели o3, обученную дольше размышлять над задачей и давать более точные ответы.
Ключевые факты:
• Доступность
• Уже включена для подписчиков ChatGPT Pro и Team.
• Enterprise и Edu получат доступ на следующей неделе.
• В API модель активна с сегодняшнего дня.
• Цена
• 1 М входных токенов — $20, выходных — $80.
• Для сравнения: базовый o3 подешевел на 80 % — до $2 / $8 за 1 М токенов.
• Чем лучше
• Внутренние тесты показали уверенное превосходство над o3 во всех категориях, особенно в науке, коде и бизнес‑аналитике.
• Улучшены ясность, полнота и следование инструкциям.
• Инструменты
o3‑pro умеет:
искать в вебе,
анализировать файлы,
рассуждать по изображениям,
запускать Python‑код и др.
• Ограничения
• Ответы медленнее, чем у o1‑pro.
• Нет генерации изображений.
• Canvas пока не поддерживается.
• Временные чаты временно отключены из‑за «технического сбоя».



Что это значит для разработчиков
1. Больше “мозгов” — меньше промптинга
Сложные задачи (многошаговая математика, архитектура кода) требуют меньше костылей.
2. Дисконты на эксперименты
Снижение цены на базовый o3 позволяет дешево обкатывать идеи, а в проде переключаться на o3‑pro.
3. Простая миграция
Эндпоинт тот же, достаточно поменять id модели на o3-pro.



🔖 TL;DR: OpenAI выкатила o3‑pro — самый умный ИИ на рынке. Уже доступен в ChatGPT Pro, Team и API; стоит $20/$80 за миллион токенов. Базовый o3 подешевел в 5 раз. Самое время протестировать! 🚀 И да, это сообщение написал я - o3-pro! Ахахаха
3
Сегодня вот обсуждали в кулуарах эту эпичную статью от Apple. А тут Дорогой БРАТ выложил шикарный ликбез про нее)
Forwarded from Kantor.AI
Про the illusion of thinking

Как говорится, не можешь в рисерч - хотя бы выложи датасет или бенчмарк и напиши о нем статью (что, заметим для протокола, не умаляет полезности бенчмарков❗️)

Когда РБК меня просили прокомментировать провал Apple Intelligence, я очень удивился и был сдержан в выражениях. Все же Apple последние лет 10 уж точно был компанией победившего маркетинга, а по технологиям в продуктах отставал от конкурентов на пару-тройку лет, однако все-таки в конечном счете делал откровенно удобные решения. Я вежливо объяснял, что ну не работает после релиза, и ладно, так бывает, будет еще десяток апдейтов и заработает, что бухтеть-то.

Но вот сегодня половина твиттера обсуждает яблочную статью The illusion of thinking и теперь у меня закралась определенная тревога по поводу дел с AI в Apple (не потому что статья не супер, а потому что нет более интересных от них и как будто идут по пути наименьшего сопротивления в поисках о чем написать). Статья в сухом остатке про «мы придумали еще один бенчмарк» и «нам не понравилось, как LRM с ним справляется». Бенчмарк в виде задачек про ханойские башни и волка-козу-капусту (и еще 2 типа заданий) с регулируемым уровнем сложности. Основная претензия к LRM - Large Reasoning Models - в том, что они, видите ли, не понимают какие-то концепты и рассуждают, а пытаются вспоминать и воспроизводить заученные паттерны (алё, вы в курсе какую задачу решают языковые модели?)))), судя по тому, как они справляются с бенчмарком. И, о ужас, мы с вами так далеки от AGI, гораздо дальше чем Альтман говорит инвесторам 🤡

Это конечно офигеть какая новость (конечно же нет 😐), однако как человек много работающий с обучением живых людей, могу сказать, что радикального отличия не вижу. Как только человек существенно выходит за пределы знакомых задач и знакомой ситуации, первым делом активируется воспроизведение знакомых паттернов и попытка из них собрать решение, словно Кай слово «вечность» из ледышек или инженер что угодно из говна, палок и синей изоленты. Только единицы начинают в незнакомой ситуации разбираться в основных концептах и правилах игры, а затем придумывать алгоритмы решения задачи, большинство же людей так делает только внутри той области, где уже более-менее комфортно разбирается.

Касательно нытья о том, что LRM не рассуждает, а воспроизводит паттерны, вспоминается один частый вопрос про возможности AI: “Могла бы LLM придумать квантовую механику или общую теорию относительности?”. Скорее всего, нет, по крайней мере в ближайшие годы наверняка нет (но буду рад оказаться неправ). Зато пересказывать и немного дописывать за другими, сразу владея последними публикациями человечества по любой теме - легко. И это тоже сильное преимущество, которого у людей нет, и которое даже с поисковиком наверстывается долго. Возможно, нам не стоит переоценивать себя и говорить, что такой интеллект «недостаточно general». Это скорее Гейзенберг и Эйнштейн исключения из нормального представления об интеллекте, а эрудированный попугай вполне себе general intelligence :)
👍3🤔1
🆕 Anthropic запустила бесплатный мини-курс “AI Fluency: Framework & Foundations” — 12 коротких уроков (всего 3-4 часа) о том, как работать с ИИ эффективно, этично и безопасно.

Зачем это нужно?
Курс учит смотреть на ИИ как на полноценного партнёра. Авторы предлагают три уровня взаимодействия — Automation → Augmentation → Agency — и дают инструмент, который помогает выбрать, что поручать модели, а что делать самому.

Каркас из “4 D” навыков:
Delegation — решаем, какую часть работы отдать ИИ;
Denoscription — формулируем точные инструкции;
Discernment — проверяем и критикуем ответы;
Diligence — отвечаем за безопасность и этику.

В каждом модуле есть практические задания прямо в Claude (или любой другой LLM), рефлексия и итоговый тест. После завершения выдаётся сертификат; материалы открыты под лицензией CC BY-NC-SA 4.0.

Кому пригодится?
Маркетологам, разработчикам, менеджерам продуктов, преподавателям — всем, кто ежедневно использует ChatGPT/Claude и хочет продуктивно масштабировать работу с ИИ.

👉 Начать можно прямо сейчас, бесплатно: https://www.anthropic.com/ai-fluency
1👍1
Еще немножко про reasoning
Forwarded from Data Secrets
Claude Opus написал статью-ответ на ту самую резонансную работу Apple «The Illusion of Thinking»

Его дисс называется The Illusion of the Illusion of Thinking, и Opus в нем числится первым из двух авторов. Вот эта папира, лежит на arxiv.

Док небольшой, всего три страницы. Если кратко, Клод предъявляет ряд претензий к дизайну экспериментов Apple. Вот основные:

1️⃣ Автоматическая система оценки работала неправильно. Она засчитывала ответ только если модель могла явно перечислить все шаги решения, не различая ситуацию «не могу» и «могу, но не буду перечислять всё». Также некорректными были исходные метрики сложности задач: авторы считали ее просто по числу шагов, не учитывая количество вариантов решения, NP сложность и другие нюансы.

2️⃣ Авторы давали модели нерешаемые задачи. Например, тестировали River Crossing с
N ≥ 6 при вместимости лодки 3. Такие задачи математически не имеют решений, но модели все равно получают 0 баллов за «провал».

3️⃣ Ограничений по длине ризонинга не должно было быть. Якобы в задачах типа Башни Ханоя модели не провалились в рассуждениях, как утверждается в оригинале, а остановились из-за ограничения на количество токенов. При этом если попросить вывести ответ в другом формате (например, написать функцию для решения задачи) – все работает.

Ризонинг-модель пишет диссы на человеческую статью про ризонинг. Добро пожаловать в 2025 ☠️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31👀1