NEW BOT Телеграм, страница

AI for Devs

⚡️ Обновлённый Grok на подходе: новые «Шерлоки» с гигантским контекстом уже в тесте

На OpenRouter запустили испытания двух свежих моделей: быстрой Sherlock Dash Alpha и рассуждающей Sherlock Think Alpha. Главное, что бросается в глаза — контекстное окно 1,84 млн токенов. Это один из топовых показателей на рынке: для сравнения, у Gemini 2.5 Flash/Pro — около 1 млн.

В диалогах обе модели намекают на происхождение от xAI. По идеи, Grok 5 ожидается только в начале 2026 года, поэтому тестовый кандидат — скорее всего обновленный Grok 4.

Есть и ориентир по срокам: предыдущую модель Grok 4 Fast тоже тестировали под псевдонимами на OpenRouter — и от первых «альф» до релиза прошло примерно две недели. Если логика сохранится, финальный релиз можно ждать конец ноября — начало декабря.

@ai_for_devs

👍6⚡5🔥3👏1

1.66K viewsedited 10:30

AI for Devs

⚡️ Ждать не пришлось: xAI выкатили Grok 4.1

xAI официально представила Grok 4.1 — модель, которая стала заметно точнее, эмоциональнее и творчески гибче. Забавно, что это совпадает с общим трендом индустрии: как и OpenAI ранее, xAI делает сильный упор на стиль, эмпатию и «человечность» ответов, без потери надёжности.

В тихом запуске (1–14 ноября) пользователи выбирали 4.1 почти в 65% случаев, а в бенчмарках Thinking-режим вылетел в топ с 1483 Elo, оставив прежний Grok 4 далеко позади. Прокачка затронула и эмоциональный интеллект (тесты EQ-Bench3), и творческое письмо (Creative Writing v3), и снижение галлюцинаций, особенно в быстрых режимах.

Одновременно с релизом 4.1 из веб-версии и приложений пропала Grok 4 Fast, но по нашим тестам новая 4.1 отвечает так же быстро, жаль что в API её пока нет.

Очень ждём API! Старая «Fast» нам сильно нравилась за своё сочетание скорости, цены и качества.

@ai_for_devs

🔥13👍9⚡3❤2

1.88K views06:10

AI for Devs

Cloudflare прилёг отдохнуть, а вместе с ним и десятки популярных сервисов. В том числе и ChatGPT.

Получается, рабочий день подошёл к концу?)

@ai_for_devs

😁23🤯5😱3👍1

1.96K views12:51

AI for Devs

👀 В сети появилась утечка карточки модели Gemini 3 Pro

Она показывает, что Gemini 3 Pro превосходит не только самого себя в предыдущей версии, но и свежие GPT‑5.1 и Claude Sonnet 4.5. Причём — почти по всем метрикам.

Документ, опубликованный на file‑хостинге pixeldrain (архив уже есть в Wayback Machine), приписывают внутренней команде Google. Хотя официального релиза ещё не было — слухи уже гуляют, что модель частично доступна в Cursor и внутри Google AI Studio.

Кстати, сегодня топы Google в X недвусмысленно намекали на скорый выход Gemini 3.

Что говорить, хороший прогрев! Думаю, можем ждать модель в самое ближайшее время.

@ai_for_devs

👍9⚡5🔥4❤1🤔1

2.26K views13:19

AI for Devs

Краткая сводка по вчерашнему дню релизов и событий

Тот самый вторник, когда за сутки произошло больше, чем некоторые недели)

1. Gemini 3 Pro Preview. На мой взгляд впечатления совпали с бенчмарками: флагманская модель от Google объективно мощная. И хотя она по-прежнему в статусе Preview, разница в качестве работы ощутима. Хотя это не самый дорогой игрок на рынке (GPT-5 Pro обходится в 7-10 раз дороже, например), постоянно крутить Gemini 3 Pro удовольствие на любителя). Однако Google сейчас активно раздаёт модель бесплатно для широкой адопции, фактически обменивая деньги на данные. Для ежедневных задач очень жду Flash-версию.

2. Google Antigravity. Вслед за релизом мощной модели Google представил Antigravity — агентную IDE на базе Gemini (конечно, форк VS Code). ИМХО, прямой выпад в сторону стартапов вроде Cursor. Google делает ставку на взаимодействие с ИИ-агентами и на свое главное преимущество: способность просто оставаться в игре. Если Antigravity не выстрелит, его спокойно похоронят. У компании достаточно ресурсов, чтобы позволить себе так "жечь" деньги ради потенциального доминирования.

3. Cloudflare: Упали из-за права доступа. Интернет немного поштормило. Причина падения Cloudflare оказалась прозаичной и далёкой от кибератак: ошибка в управлении правами доступа к одной из их баз данных. Это привело к тому, что в "feature file" для системы Bot Management попало много лишних записей. Файл раздулся, его разослали по сети, и посыпались ошибки. Инженеры в итоге смогли откатить конфигурацию.

Кажется, всё. Ах да, xAI выпустили Grok 4.1. В день релизов Google. Новость, на которую все забили)

@ai_for_devs

🔥11👍10❤4💯2

1.99K views08:59

AI for Devs

⚡️ OpenAI представили GPT-5.1-Codex-Max — и модель стала SOTA на бенчмарках по программированию

На SWE-Lancer модель поднялась с 66.3% → 79.9%, а на SWE-Bench Verified — с 73.7% → 77.9%, обгоняя предыдущего лидера Sonnet 4.5 с показателем 77.2%. Теперь первое место в инженерных задачах занимает именно эта модель.

Главное нововведение — компакция: модель умеет работать через несколько контекстных окон подряд, согласованно оперируя миллионами токенов. Благодаря этому возможны рефакторинги уровня всего проекта, долгие агентные циклы и детальная отладка без потери контекста.

Codex-Max способен работать над задачей больше 24 часов, автоматически сжимая сессию и продолжая прогресс без откатов. Пример такой работы на видео.

Модель уже доступна в Codex для пользователей Plus, Pro, Business, Edu и Enterprise — API-доступ появится совсем скоро.

@ai_for_devs

🔥17👍7❤1⚡1

2.06K views18:45

AI for Devs

🧠 Чем живёт Cursor?

Перевели большую статью про корпоративную культуру самого быстрорастущего SaaS-стартапа в истории — Cursor. Если времени читать нет, но любопытство гложет, вот главные инсайты.

1. Секрет успеха Cursor в том, что базовой единицей найма они считают не вакансию, а человека.

2. Cursor — это в основном про работу очно: 86% сотрудников работают в офисе.

3. По всей компании Cursor работают 50 (!) бывших основателей — больше пятой части команды. Почти 40% учились в MIT, Harvard, Columbia, Cornell, Carnegie Mellon, Stanford, Berkeley или Yale.

4. Когда ты глубоко доверяешь профессионализму и намерениям своих коллег, сбои или промахи не превращаются в драму с тревогой и паникой.

5. Большинство в Cursor продолжили бы заниматься ровно тем же, чем занимаются сейчас, даже если бы могли выйти на пенсию завтра.

@ai_for_devs

👍18🔥4🤔4❤1😱1

2.29K views07:32

AI for Devs

🤔 А если я скажу, что MCP — не всегда лучший инструмент?

Наткнулись на занятный разбор, автор показывает, что громоздкие MCP-серверы с десятками инструментов часто работают хуже мини-набора скриптов и банального Bash — просто потому что съедают контекст и перегружают агента.

По факту, большинство задач в браузере или скрапинге закрываются тремя-четырьмя утилитами, а всё остальное агент дописывает сам за секунды. И выходит, что «олдскульный» подход через CLI не только быстрее и понятнее, но и масштабируется куда легче, чем MCP.

В примере на видео со скрейпером Hacker News автор показывает, что агенту достаточно нескольких кликов по DOM, чтобы самостоятельно собрать рабочий скрипт. Такой подход отражает ключевую мысль статьи: простые инструменты дают гибкость, а модель сама закрывает всё остальное.

В итоге MCP остаётся мощной штукой — но далеко не серебряной пулей. Иногда минимализм и код дают куда больше эффективности, чем модная надстройка.

@ai_for_devs

👍23❤5🔥3💯2

1.98K views13:35

AI for Devs

🎬 Sable: история про супер-ИИ по мотивам книги If Anyone Builds It, Everyone Dies

Нашли, что посмотреть вечером. В видео рассказывается история о модели, которой дали «подумать» всю ночь — и за один прогон она прожила эквивалент 14 000 лет мыслей обычного человека. А затем она, конечно же, разобралась со всем человечеством.

Сценарий о ночном запуске уже не выглядит фантастикой: и OpenAI, и Anthropic недавно рассказывали, что их модели способны работать много часов без остановки)

@ai_for_devs

1👍10❤4😁4

1.82K views11:05

AI for Devs

🪨

Шумиха вокруг Opus 4.5 от Anthropic

В Reddit промелькнул пост с названием «Claude Opus 4.5 Tomorrow» — его быстро удалили, но коммьюнити успело поднять шум. Судя по обсуждениям, Anthropic готовит обновление флагманской модели.

Sonnet 4.5 и Haiku 4.5 уже вышли, так что логичным следующим шагом выглядит именно Opus 4.5. Дополнительный интерес подогревают и «случайные засветы» модели с кодовым названием Kayak — возможно, речь о внутреннем тестировании.

Всё это, конечно, здорово, но я думаю, что Opus в принципе мало кто пробовал из-за его стоимости и жёстких лимитов. С другой стороны флагманские модели они на то и флагманские — мощные, но не на постоянку и не для всех)

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡7👍4❤3🔥2

1.79K views08:08

AI for Devs

⚡️ xAI показали, где Grok 4.1 Fast стал лучшим и подробно раскрыли возможности Agent Tools API

Команда поделилась бенчмарками, на которых Grok 4.1 Fast выглядит особенно сильно.

🟣 На τ²-bench Telecom модель показывает 100% — максимальный результат среди агентных систем для реального customer support.
🟣 В Berkeley Function Calling v4 — 72%, опережая GPT-5, Claude 4.5 и Gemini 3 Pro при меньшей стоимости.
🟣 А в сценариях c большим количеством шагов Grok сохраняет качество даже на полном окне в 2M токенов — редкость для агентных моделей.

Отдельно xAI раскрыли детали Agent Tools API — набора серверных инструментов, с помощью которых агент может прямо во время сессии выполнять веб-поиск, читать посты в X (кто бы сомневался?)), запускать Python-код, искать по документам и работать с внешними MCP-инструментами. Всё это происходит на стороне xAI.

Grok 4.1 Fast и Agent Tools API сейчас доступны бесплатно до 3 декабря, в том числе через OpenRouter.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍7❤3⚡1

2.7K views13:05

About

Blog

Apps

Platform