4.9 = x + 4.11
Увы, X = -0.21 ✅
Главное, что GPT5 уверенно добавляет ✅ к ответу
PHD уровень, говорили они
Увы, X = -0.21 ✅
Главное, что GPT5 уверенно добавляет ✅ к ответу
PHD уровень, говорили они
😁59🫡10💯6❤3🥴2👍1
🖍 Claude Sonnet 4.5 от Anthropic
У меня на экране — барчарт SWE-bench Verified. у соннета 4.5 — 77.2% «без параллели», 82.0% с параллельным тест-тайм вычислением. справа сереют gpt-5 и его codex-вариант (72.8/74.5), в хвосте gemini 2.5 pro (67.2). Становится ясно: эпоха «попробуем один раз прогнать» умерла — теперь побеждает тот, кто умеет гонять агентные пайплайны.
Что антрoпик реально привезли:
▫️ Школьная математика и рассуждение: AIME-2025 до 100% «юзая python» (без — 87.0%) у GPT-5 99.6% (без — 94.6%, имхо у GPT-5 даже лучше), GPQA-Diamond 83.4%, мультиязычный MMLU 89.1%. Кстати, GPT-5 обгоняет на визуальных MMMU, а gemini держит GPQA-диамант выше.
▫️ Долгое внимание: в реальных задачах модель не теряет нить >30 часов + «high compute» режим = параллельные попытки + отбраковка
tl;dr
1) Sonnet 4.5 — новый лидер в реальном кодинге
2) Лучше GPT-5? На бумаге — да, а так хз, надо тестить. Ну а так догоняющее развитие никто не отменял
👓 https://www.anthropic.com/news/claude-sonnet-4-5
У меня на экране — барчарт SWE-bench Verified. у соннета 4.5 — 77.2% «без параллели», 82.0% с параллельным тест-тайм вычислением. справа сереют gpt-5 и его codex-вариант (72.8/74.5), в хвосте gemini 2.5 pro (67.2). Становится ясно: эпоха «попробуем один раз прогнать» умерла — теперь побеждает тот, кто умеет гонять агентные пайплайны.
Что антрoпик реально привезли:
▫️ Школьная математика и рассуждение: AIME-2025 до 100% «юзая python» (без — 87.0%) у GPT-5 99.6% (без — 94.6%, имхо у GPT-5 даже лучше), GPQA-Diamond 83.4%, мультиязычный MMLU 89.1%. Кстати, GPT-5 обгоняет на визуальных MMMU, а gemini держит GPQA-диамант выше.
▫️ Долгое внимание: в реальных задачах модель не теряет нить >30 часов + «high compute» режим = параллельные попытки + отбраковка
tl;dr
1) Sonnet 4.5 — новый лидер в реальном кодинге
2) Лучше GPT-5? На бумаге — да, а так хз, надо тестить. Ну а так догоняющее развитие никто не отменял
👓 https://www.anthropic.com/news/claude-sonnet-4-5
❤15🔥7👍2👎2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
📺 Sora 2 от OpenAI
- Sota по video генерации
Релиз через 10 минут
ждем
- Sota по video генерации
Релиз через 10 минут
ждем
❤17👎2
👁 Sora 2 от Open AI
— Sota в видео генерации: самое глубокое понимание геометрии, динамики и физики доступное в видео моделях на сегодняшний день
— Звук генерируется вместе с видео
— Запуск приложения; экспериментального генеративного аналога Тик-Тока, работает так:
◽️Создается «нейронный» аватар личности. Похоже на настройку FaceID + и тюн голоса для Siri
◽️Ну а дальше можно генерировать любые видео со звуком, синхронизацией своих губ, речи или без таковой без дорого продакшена
Уверен, что в ближайшие годы интернет заполнят миллиарды подобных генераций, но говна там и без этого хватало, не страшно.
Аппка SORA пока доступна в iOS в США и Канаде.
tl;dr Октябрь 2025: видео генерация решена
https://www.youtube.com/live/gzneGhpXwjU?si=qVqDtqN0QFBZReuD
— Sota в видео генерации: самое глубокое понимание геометрии, динамики и физики доступное в видео моделях на сегодняшний день
— Звук генерируется вместе с видео
— Запуск приложения; экспериментального генеративного аналога Тик-Тока, работает так:
◽️Создается «нейронный» аватар личности. Похоже на настройку FaceID + и тюн голоса для Siri
◽️Ну а дальше можно генерировать любые видео со звуком, синхронизацией своих губ, речи или без таковой без дорого продакшена
Уверен, что в ближайшие годы интернет заполнят миллиарды подобных генераций, но говна там и без этого хватало, не страшно.
Аппка SORA пока доступна в iOS в США и Канаде.
tl;dr Октябрь 2025: видео генерация решена
https://www.youtube.com/live/gzneGhpXwjU?si=qVqDtqN0QFBZReuD
YouTube
Introducing Sora 2
Bill Peebles, Rohan Sahai, and Thomas Dimson introduce and demo Sora 2 and the new Sora app.
https://openai.com/index/sora-2/
https://openai.com/index/sora-2/
❤6🙉4👎2🔥2
SORA 2 ЭТО ПОРТАЛ В АД!
😁43👎11💊9👍2
Кстати, модель неплохо работает с картинками
😁21🤯5👎4❤1🥰1👻1
Forwarded from Нейроэстетика
This media is not supported in your browser
VIEW IN TELEGRAM
😁17👎6❤🔥1🙈1
🔍 OpenAI догоняют Anthropic в написании кода
Недавний анализ 300 000+ pull request’ов показывает: Codex (OpenAI) слегка обходит Claude Code по уровню успеха — 74,3 % против 73,7 %.
Но:
• Разрыв невелик, но ест — разница 0,6 % в пользу Codex
• Учитываем, что успех pull request’а ≠ идеальный код
• Оба ИИ активно развиваются — лидерство сегодня может легко смениться завтра.
Вывод tl;dr: OpenAI уже не просто догоняет — возможно, обгоняет (по крайней мере в некоторых кейсах).
Но окончательный выбор за тобой 😄
Недавний анализ 300 000+ pull request’ов показывает: Codex (OpenAI) слегка обходит Claude Code по уровню успеха — 74,3 % против 73,7 %.
Но:
• Разрыв невелик, но ест — разница 0,6 % в пользу Codex
• Учитываем, что успех pull request’а ≠ идеальный код
• Оба ИИ активно развиваются — лидерство сегодня может легко смениться завтра.
Вывод tl;dr: OpenAI уже не просто догоняет — возможно, обгоняет (по крайней мере в некоторых кейсах).
Но окончательный выбор за тобой 😄
The Information
OpenAI Is Catching Up To Anthropic in AI Coding
OpenAI’s effort to catch up to Anthropic in code-generating artificial intelligence seems to be working.New data show OpenAI’s Codex coding assistant has pulled ahead of Anthropic’s Claude Code assistant in certain coding capabilities. Codex usage among developers…
❤10😁2👎1
Нейронка точно определяет твой акцент и его силу
p.s. как ни старайся
🤌 https://start.boldvoice.com/accent-oracle
p.s. как ни старайся
🤌 https://start.boldvoice.com/accent-oracle
😁36❤5💊4👍1👎1🫡1
🔍 Выкатили GPT-5.1: больше «мышления», больше личности, меньше сухости
Что нового:
• Улучшение не только в IQ-части (умнее), но и в EQ-части (теплее и эмпатичнее) — OpenAI пишут, что AI should not only be smart, but also enjoyable to talk to. Режима по-прежнему два: Instant и Thinking.
• Персонализация: теперь можно выбирать предустановки тона и стиля (например: Friendly, Professional, Quirky и др.).
Почему это важно
• До этого версия GPT-5 получала смешанные отзывы: технически чуть лучше, но пользователи жаловались на «сухость», недостаток «человечности».
⸻
💬 tl;dr: GPT-5.1 — шаг вперед от GPT-5: разговорный стиль (больше контроля над тоном) + улучшенное следование инструкциям. Но революции ждать не стоит.
👾 https://openai.com/index/gpt-5-1/
Что нового:
• Улучшение не только в IQ-части (умнее), но и в EQ-части (теплее и эмпатичнее) — OpenAI пишут, что AI should not only be smart, but also enjoyable to talk to. Режима по-прежнему два: Instant и Thinking.
• Персонализация: теперь можно выбирать предустановки тона и стиля (например: Friendly, Professional, Quirky и др.).
Почему это важно
• До этого версия GPT-5 получала смешанные отзывы: технически чуть лучше, но пользователи жаловались на «сухость», недостаток «человечности».
⸻
💬 tl;dr: GPT-5.1 — шаг вперед от GPT-5: разговорный стиль (больше контроля над тоном) + улучшенное следование инструкциям. Но революции ждать не стоит.
👾 https://openai.com/index/gpt-5-1/
❤10👎1😁1
🕹 SIMA 2: Gemini-агент, который не просто жмёт кнопки, а реально думает
Техническая выжимка DeepMind-поста про SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds
⸻
tl;dr
• SIMA 2 = SIMA 1 + Gemini в качестве мозга: поверх прежнего embodied-агента прилепили мощную LLM/Gemini-модель как «core reasoner».
• Агент видит только экран и жмёт виртуальную клаву/мышь — никакого доступа к внутреннему состоянию игры → «честный» embodied-сетап.
• Учится на смеси человеческих демонстраций + автогенерации анотаций Gemini, дальше переходит к self-play и self-improvement.
• На новых играх (ASKA, MineDojo) SIMA 2 делает ≈45–75% задач vs 15–30% у SIMA 1, и сильно приближается к человеку по успешности задач в тренировочных мирах.
• Умеет мультимодальные запросы (текст, голос, картинки, и тд) и переносит абстрактные концепты типа «майнинг» ↔ «харвестинг» между разными играми.
• Ключевой ресёрч-месседж: масштабная LLM + diverse multi-world data + self-improvement-loop = путь к generalist embodied-агенту.
Теперь long version.
⸻
Что вообще такое SIMA 2?
SIMA 1 был Scalable Instructable Multiworld Agent:
• 600 навыков типа «turn left», «open the map», «climb the ladder»
• разные коммерческие игры
• агент видит только видеопоток и отдаёт команды через эмуляцию клавы/мыши.
SIMA 2 — это больше не «следователь инструкций», а агент с явным reasoning-core на базе Gemini:
• в центр архитектуры вставили Gemini-модель как мозг;
• модель не только декодит текст запроса, но и строит план действий, размышляет о цели и состоянии среды;
• агент умеет объяснять свои намерения и раскладывать план по шагам в диалоге с пользователем.
⸻
Архитектура:
Судя по описанию, внутри — типичный embodied agent stack:
1. Перцепция
• вход: RGB-видео (игровой экран) + текст / голос
• всё это приводится в мультимодальное представление, совместимое с Gemini.
2. Reasoning core (Gemini)
• высокоуровневая формулировку цели;
• описание текущей сцены (через encoder)
• На выходе: план / цепочка действий высокого уровня, плюс объяснения (natural-language trace), что агент собирается сделать.
3. Action-layer
• мост между high-level планом и конкретными нажатиями клавиш и движением мыши;
4. Feedback & training loop
• human demos & language labels (первичный supervised / imitation слой);
• Gemini-генерируемые описания и оценки (pseudo-labels / reward shaping);
• дальше включается self-play и self-improvement (подробно ниже).
Архитектуру они не раскрывают в стиле «вот вам диаграмма Transformer-блоков», но паттерн понятен: LLM-как-мозг + policy-контроллер для embodied-действий, обученный на mixture of imitation + RL-подобный self-improvement.
📼 https://youtu.be/Zphax4f6Rls?si=bbWYx1TJBbSEvu2-
💬 https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
Техническая выжимка DeepMind-поста про SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds
⸻
tl;dr
• SIMA 2 = SIMA 1 + Gemini в качестве мозга: поверх прежнего embodied-агента прилепили мощную LLM/Gemini-модель как «core reasoner».
• Агент видит только экран и жмёт виртуальную клаву/мышь — никакого доступа к внутреннему состоянию игры → «честный» embodied-сетап.
• Учится на смеси человеческих демонстраций + автогенерации анотаций Gemini, дальше переходит к self-play и self-improvement.
• На новых играх (ASKA, MineDojo) SIMA 2 делает ≈45–75% задач vs 15–30% у SIMA 1, и сильно приближается к человеку по успешности задач в тренировочных мирах.
• Умеет мультимодальные запросы (текст, голос, картинки, и тд) и переносит абстрактные концепты типа «майнинг» ↔ «харвестинг» между разными играми.
• Ключевой ресёрч-месседж: масштабная LLM + diverse multi-world data + self-improvement-loop = путь к generalist embodied-агенту.
Теперь long version.
⸻
Что вообще такое SIMA 2?
SIMA 1 был Scalable Instructable Multiworld Agent:
• 600 навыков типа «turn left», «open the map», «climb the ladder»
• разные коммерческие игры
• агент видит только видеопоток и отдаёт команды через эмуляцию клавы/мыши.
SIMA 2 — это больше не «следователь инструкций», а агент с явным reasoning-core на базе Gemini:
• в центр архитектуры вставили Gemini-модель как мозг;
• модель не только декодит текст запроса, но и строит план действий, размышляет о цели и состоянии среды;
• агент умеет объяснять свои намерения и раскладывать план по шагам в диалоге с пользователем.
⸻
Архитектура:
Судя по описанию, внутри — типичный embodied agent stack:
1. Перцепция
• вход: RGB-видео (игровой экран) + текст / голос
• всё это приводится в мультимодальное представление, совместимое с Gemini.
2. Reasoning core (Gemini)
• высокоуровневая формулировку цели;
• описание текущей сцены (через encoder)
• На выходе: план / цепочка действий высокого уровня, плюс объяснения (natural-language trace), что агент собирается сделать.
3. Action-layer
• мост между high-level планом и конкретными нажатиями клавиш и движением мыши;
4. Feedback & training loop
• human demos & language labels (первичный supervised / imitation слой);
• Gemini-генерируемые описания и оценки (pseudo-labels / reward shaping);
• дальше включается self-play и self-improvement (подробно ниже).
Архитектуру они не раскрывают в стиле «вот вам диаграмма Transformer-блоков», но паттерн понятен: LLM-как-мозг + policy-контроллер для embodied-действий, обученный на mixture of imitation + RL-подобный self-improvement.
📼 https://youtu.be/Zphax4f6Rls?si=bbWYx1TJBbSEvu2-
💬 https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
YouTube
Introducing SIMA 2, the next milestone in our research creating general and helpful AI agents.
We’re introducing SIMA 2, the next major milestone in general and helpful embodied AI agents. 👾
With Gemini integrated at its core, it moves beyond following basic instructions to think, learn, and collaborate in complex, 3D worlds.
🔵 Advanced reasoning:…
With Gemini integrated at its core, it moves beyond following basic instructions to think, learn, and collaborate in complex, 3D worlds.
🔵 Advanced reasoning:…
❤8