Мишин Лернинг – Telegram
Мишин Лернинг
7.78K subscribers
1.17K photos
151 videos
4 files
642 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта. 🇺🇦🇮🇱
Download Telegram
4.9 = x + 4.11

Увы, X = -0.21

Главное, что GPT5 уверенно добавляет к ответу
PHD уровень, говорили они
😁59🫡10💯63🥴2👍1
👾 В GPT-5 завезли Quiz карточки

Устрой сессию мастурбации своему Эго с fancy карточками. 5 вопросов, 4 варианта ответов.

🧐 prompt формат: quiz me on <описание топика и сложности> quizgpt

У вас работает?
😁11👨‍💻3🦄31👍1
🖍 Claude Sonnet 4.5 от Anthropic

У меня на экране — барчарт SWE-bench Verified. у соннета 4.5 — 77.2% «без параллели», 82.0% с параллельным тест-тайм вычислением. справа сереют gpt-5 и его codex-вариант (72.8/74.5), в хвосте gemini 2.5 pro (67.2). Становится ясно: эпоха «попробуем один раз прогнать» умерла — теперь побеждает тот, кто умеет гонять агентные пайплайны.

Что антрoпик реально привезли:
▫️ Школьная математика и рассуждение: AIME-2025 до 100% «юзая python» (без — 87.0%) у GPT-5 99.6% (без — 94.6%, имхо у GPT-5 даже лучше), GPQA-Diamond 83.4%, мультиязычный MMLU 89.1%. Кстати, GPT-5 обгоняет на визуальных MMMU, а gemini держит GPQA-диамант выше.

▫️ Долгое внимание: в реальных задачах модель не теряет нить >30 часов + «high compute» режим = параллельные попытки + отбраковка

tl;dr
1) Sonnet 4.5 — новый лидер в реальном кодинге
2) Лучше GPT-5? На бумаге — да, а так хз, надо тестить. Ну а так догоняющее развитие никто не отменял

👓 https://www.anthropic.com/news/claude-sonnet-4-5
15🔥7👍2👎2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
📺 Sora 2 от OpenAI

- Sota по video генерации

Релиз через 10 минут
ждем
17👎2
👁 Sora 2 от Open AI

— Sota в видео генерации: самое глубокое понимание геометрии, динамики и физики доступное в видео моделях на сегодняшний день
— Звук генерируется вместе с видео
— Запуск приложения; экспериментального генеративного аналога Тик-Тока, работает так:

◽️Создается «нейронный» аватар личности. Похоже на настройку FaceID + и тюн голоса для Siri
◽️Ну а дальше можно генерировать любые видео со звуком, синхронизацией своих губ, речи или без таковой без дорого продакшена

Уверен, что в ближайшие годы интернет заполнят миллиарды подобных генераций, но говна там и без этого хватало, не страшно.

Аппка SORA пока доступна в iOS в США и Канаде.

tl;dr Октябрь 2025: видео генерация решена

https://www.youtube.com/live/gzneGhpXwjU?si=qVqDtqN0QFBZReuD
6🙉4👎2🔥2
🔍 OpenAI догоняют Anthropic в написании кода

Недавний анализ 300 000+ pull request’ов показывает: Codex (OpenAI) слегка обходит Claude Code по уровню успеха — 74,3 % против 73,7 %.

Но:
• Разрыв невелик, но ест — разница 0,6 % в пользу Codex
• Учитываем, что успех pull request’а ≠ идеальный код
• Оба ИИ активно развиваются — лидерство сегодня может легко смениться завтра.

Вывод tl;dr: OpenAI уже не просто догоняет — возможно, обгоняет (по крайней мере в некоторых кейсах).

Но окончательный выбор за тобой 😄
10😁2👎1
Нейронка точно определяет твой акцент и его силу

p.s. как ни старайся

🤌 https://start.boldvoice.com/accent-oracle
😁365💊4👍1👎1🫡1
🔍 Выкатили GPT-5.1: больше «мышления», больше личности, меньше сухости

Что нового:
• Улучшение не только в IQ-части (умнее), но и в EQ-части (теплее и эмпатичнее) — OpenAI пишут, что AI should not only be smart, but also enjoyable to talk to. Режима по-прежнему два: Instant и Thinking.

• Персонализация: теперь можно выбирать предустановки тона и стиля (например: Friendly, Professional, Quirky и др.).

Почему это важно
• До этого версия GPT-5 получала смешанные отзывы: технически чуть лучше, но пользователи жаловались на «сухость», недостаток «человечности».



💬 tl;dr: GPT-5.1 — шаг вперед от GPT-5: разговорный стиль (больше контроля над тоном) + улучшенное следование инструкциям. Но революции ждать не стоит.

👾 https://openai.com/index/gpt-5-1/
10👎1😁1
🕹 SIMA 2: Gemini-агент, который не просто жмёт кнопки, а реально думает

Техническая выжимка DeepMind-поста про SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds



tl;dr
SIMA 2 = SIMA 1 + Gemini в качестве мозга: поверх прежнего embodied-агента прилепили мощную LLM/Gemini-модель как «core reasoner».
• Агент видит только экран и жмёт виртуальную клаву/мышь — никакого доступа к внутреннему состоянию игры → «честный» embodied-сетап.
• Учится на смеси человеческих демонстраций + автогенерации анотаций Gemini, дальше переходит к self-play и self-improvement.
• На новых играх (ASKA, MineDojo) SIMA 2 делает ≈45–75% задач vs 15–30% у SIMA 1, и сильно приближается к человеку по успешности задач в тренировочных мирах.
• Умеет мультимодальные запросы (текст, голос, картинки, и тд) и переносит абстрактные концепты типа «майнинг» «харвестинг» между разными играми.
• Ключевой ресёрч-месседж: масштабная LLM + diverse multi-world data + self-improvement-loop = путь к generalist embodied-агенту.


Теперь long version.



Что вообще такое SIMA 2?

SIMA 1 был Scalable Instructable Multiworld Agent:
• 600 навыков типа «turn left», «open the map», «climb the ladder»
• разные коммерческие игры
• агент видит только видеопоток и отдаёт команды через эмуляцию клавы/мыши.

SIMA 2 — это больше не «следователь инструкций», а агент с явным reasoning-core на базе Gemini:
• в центр архитектуры вставили Gemini-модель как мозг;
• модель не только декодит текст запроса, но и строит план действий, размышляет о цели и состоянии среды;
• агент умеет объяснять свои намерения и раскладывать план по шагам в диалоге с пользователем.



Архитектура:

Судя по описанию, внутри — типичный embodied agent stack:

1. Перцепция
• вход: RGB-видео (игровой экран) + текст / голос
• всё это приводится в мультимодальное представление, совместимое с Gemini.

2. Reasoning core (Gemini)
• высокоуровневая формулировку цели;
• описание текущей сцены (через encoder)
• На выходе: план / цепочка действий высокого уровня, плюс объяснения (natural-language trace), что агент собирается сделать.

3. Action-layer
• мост между high-level планом и конкретными нажатиями клавиш и движением мыши;

4. Feedback & training loop
• human demos & language labels (первичный supervised / imitation слой);
• Gemini-генерируемые описания и оценки (pseudo-labels / reward shaping);
• дальше включается self-play и self-improvement (подробно ниже).

Архитектуру они не раскрывают в стиле «вот вам диаграмма Transformer-блоков», но паттерн понятен: LLM-как-мозг + policy-контроллер для embodied-действий, обученный на mixture of imitation + RL-подобный self-improvement.

📼 https://youtu.be/Zphax4f6Rls?si=bbWYx1TJBbSEvu2-

💬 https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
8
Forwarded from Denis Sexy IT 🤖
👍15👎1🤬1