Мишин Лернинг – Telegram
Мишин Лернинг
7.78K subscribers
1.17K photos
151 videos
4 files
642 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта. 🇺🇦🇮🇱
Download Telegram
👁 Sora 2 от Open AI

— Sota в видео генерации: самое глубокое понимание геометрии, динамики и физики доступное в видео моделях на сегодняшний день
— Звук генерируется вместе с видео
— Запуск приложения; экспериментального генеративного аналога Тик-Тока, работает так:

◽️Создается «нейронный» аватар личности. Похоже на настройку FaceID + и тюн голоса для Siri
◽️Ну а дальше можно генерировать любые видео со звуком, синхронизацией своих губ, речи или без таковой без дорого продакшена

Уверен, что в ближайшие годы интернет заполнят миллиарды подобных генераций, но говна там и без этого хватало, не страшно.

Аппка SORA пока доступна в iOS в США и Канаде.

tl;dr Октябрь 2025: видео генерация решена

https://www.youtube.com/live/gzneGhpXwjU?si=qVqDtqN0QFBZReuD
6🙉4👎2🔥2
🔍 OpenAI догоняют Anthropic в написании кода

Недавний анализ 300 000+ pull request’ов показывает: Codex (OpenAI) слегка обходит Claude Code по уровню успеха — 74,3 % против 73,7 %.

Но:
• Разрыв невелик, но ест — разница 0,6 % в пользу Codex
• Учитываем, что успех pull request’а ≠ идеальный код
• Оба ИИ активно развиваются — лидерство сегодня может легко смениться завтра.

Вывод tl;dr: OpenAI уже не просто догоняет — возможно, обгоняет (по крайней мере в некоторых кейсах).

Но окончательный выбор за тобой 😄
10😁2👎1
Нейронка точно определяет твой акцент и его силу

p.s. как ни старайся

🤌 https://start.boldvoice.com/accent-oracle
😁365💊4👍1👎1🫡1
🔍 Выкатили GPT-5.1: больше «мышления», больше личности, меньше сухости

Что нового:
• Улучшение не только в IQ-части (умнее), но и в EQ-части (теплее и эмпатичнее) — OpenAI пишут, что AI should not only be smart, but also enjoyable to talk to. Режима по-прежнему два: Instant и Thinking.

• Персонализация: теперь можно выбирать предустановки тона и стиля (например: Friendly, Professional, Quirky и др.).

Почему это важно
• До этого версия GPT-5 получала смешанные отзывы: технически чуть лучше, но пользователи жаловались на «сухость», недостаток «человечности».



💬 tl;dr: GPT-5.1 — шаг вперед от GPT-5: разговорный стиль (больше контроля над тоном) + улучшенное следование инструкциям. Но революции ждать не стоит.

👾 https://openai.com/index/gpt-5-1/
10👎1😁1
🕹 SIMA 2: Gemini-агент, который не просто жмёт кнопки, а реально думает

Техническая выжимка DeepMind-поста про SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds



tl;dr
SIMA 2 = SIMA 1 + Gemini в качестве мозга: поверх прежнего embodied-агента прилепили мощную LLM/Gemini-модель как «core reasoner».
• Агент видит только экран и жмёт виртуальную клаву/мышь — никакого доступа к внутреннему состоянию игры → «честный» embodied-сетап.
• Учится на смеси человеческих демонстраций + автогенерации анотаций Gemini, дальше переходит к self-play и self-improvement.
• На новых играх (ASKA, MineDojo) SIMA 2 делает ≈45–75% задач vs 15–30% у SIMA 1, и сильно приближается к человеку по успешности задач в тренировочных мирах.
• Умеет мультимодальные запросы (текст, голос, картинки, и тд) и переносит абстрактные концепты типа «майнинг» «харвестинг» между разными играми.
• Ключевой ресёрч-месседж: масштабная LLM + diverse multi-world data + self-improvement-loop = путь к generalist embodied-агенту.


Теперь long version.



Что вообще такое SIMA 2?

SIMA 1 был Scalable Instructable Multiworld Agent:
• 600 навыков типа «turn left», «open the map», «climb the ladder»
• разные коммерческие игры
• агент видит только видеопоток и отдаёт команды через эмуляцию клавы/мыши.

SIMA 2 — это больше не «следователь инструкций», а агент с явным reasoning-core на базе Gemini:
• в центр архитектуры вставили Gemini-модель как мозг;
• модель не только декодит текст запроса, но и строит план действий, размышляет о цели и состоянии среды;
• агент умеет объяснять свои намерения и раскладывать план по шагам в диалоге с пользователем.



Архитектура:

Судя по описанию, внутри — типичный embodied agent stack:

1. Перцепция
• вход: RGB-видео (игровой экран) + текст / голос
• всё это приводится в мультимодальное представление, совместимое с Gemini.

2. Reasoning core (Gemini)
• высокоуровневая формулировку цели;
• описание текущей сцены (через encoder)
• На выходе: план / цепочка действий высокого уровня, плюс объяснения (natural-language trace), что агент собирается сделать.

3. Action-layer
• мост между high-level планом и конкретными нажатиями клавиш и движением мыши;

4. Feedback & training loop
• human demos & language labels (первичный supervised / imitation слой);
• Gemini-генерируемые описания и оценки (pseudo-labels / reward shaping);
• дальше включается self-play и self-improvement (подробно ниже).

Архитектуру они не раскрывают в стиле «вот вам диаграмма Transformer-блоков», но паттерн понятен: LLM-как-мозг + policy-контроллер для embodied-действий, обученный на mixture of imitation + RL-подобный self-improvement.

📼 https://youtu.be/Zphax4f6Rls?si=bbWYx1TJBbSEvu2-

💬 https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
8
Forwarded from Denis Sexy IT 🤖
👍15👎1🤬1