NEW BOT Телеграм, страница

Исследование 2: Схватка за Пространство и Капитал

🤑

Переходим от теории метрик к практике. Сегодня разберем первую пару испытаний, которая отсеяла «калькуляторов» от настоящих «агентов» и замерил их когнитивный предел.

Задачи в фокусе:
• D1 (Пространственная логика)
• D3 (Трейдинг-стратегия)

Используемые бенчмарки:
Для D1 — ARC-AGI-2 и Global PIQA.
Для D3 — AIME 2025, FrontierMath, GSM8K + SWE-bench, LiveCodeBench, Terminal-bench 2.0.

Веса и штрафы:
• Вес D1: 1.5 — критично для проектирования топологии плат и разводки пинов.
• Вес D3: 2.0 — максимальный приоритет (логика принятия решений и вычисления).
• Штрафы: -25% за CH (Confident Hallucination), -10% за HL (High Latency > 60 сек), -10% за CF (Context Fail).

Рейтинг Гладиаторов (D1 + D3):

Claude Opus 4.6 Thinking
RPI: 90.00% | D1: 100%, D3: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Preview
RPI: 63.38% | D1: 100%, D3: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Claude Opus 4.6 Base
RPI: 61.05% | D1: 100%, D3: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

Kimi-K2.5-Instant
RPI: 58.72% | D1: 100%, D3: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Qwen3-Max-Thinking
RPI: 58.02% | D1: 100%, D3: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

DeepSeek-v3.2 Base
RPI: 57.67% | D1: 100%, D3: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

GPT-5.2 Base
RPI: 56.73% | D1: 100%, D3: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Kimi-K2.5-Thinking
RPI: 54.53% | D1: 100%, D3: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Claude Opus 4.5 Base
RPI: 53.40% | D1: 95.0%, D3: 60%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D1: 90.0%, D3: 60%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

GPT-5.2 High
RPI: 50.11% | D1: 100%, D3: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

gemini-3-pro
RPI: 44.32% | D1: 95.0%, D3: 60%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

grok-4.1 Base
RPI: 40.00% | D1: 0.0%, D3: 40%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D1: 100.0%, D3: 60%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D1: 45.0%, D3: 60%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D1: 100.0%, D3: 100%
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D1: 25.0%, D3: 0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D1: DNS, D3: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D1: DNS, D3: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Полные условия задач D1 и D3 в комментариях к посту. Дальше объясню, что за чем стоит.

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥111

63 viewsedited 06:23