Forwarded from Сиолошная
В прошлом году Google DeepMind представили SIMA (Scalable Instructable Multiworld Agent) — универсального ИИ-агента, который мог выполнять простые инструкции в 7 разных трёхмерных играх. Сегодня они показали SIMA 2 — систему, в которую интегрированы новые рассуждающие модели Gemini (что интересно, не пишут версию; не хотят спойлерить, что это Gemini 3?) с целью перехода от исполнителя простых инструкций до интерактивного игрового агента.
Одна из самых интересных новых возможностей SIMA 2 — это способность к самообучению и самосовершенствованию. Исследователи обнаружили, что в процессе обучения агенты могут выполнять всё более сложные новые задачи, опираясь на опыт проб и ошибок, а также на обратную связь, генерируемую Gemini. Модель дообучается на уже завершённых эпизодах, тем самым закрепляя навыки.
Кроме того, это позволило прокачать перенос приобретённых знаний — например, применять концепцию «добычи ресурсов» из одной игры к аналогичной концепции «сбора урожая» в другой. В результате SIMA 2 демонстрирует уровень выполнения задач значительно ближе к человеческому, чем SIMA 1.
Авторы тестировали модель суммарно на 13 играх от 8 компаний, разделив их на тренировочные и валидационные, которые модели не показывают до момента тестирования. На первой группе доля успешно выполненных задач составила 68% (против 75% у людей и 31% у SIMA 1), а на второй — чуть меньше 15% (при 0-2% у SIMA 1).
На этом в DeepMind не остановились, а запустили модель играть в Genie 3 — генеративную модель на основе видео-генератора, обученную создавать интерактивные виртуальные миры (см. тут). Никаких конкретных указаний метрик или качества не дают, лишь пару примеров — их и прикрепил к посту. Ещё раз: тут две модели симулируют для игрока мир: одна переводит текстовые команды в действия и формирует ответы, другая — генерирует игровой мир, принимающий действия на вход.
В следующей серии ждём, как агента натренируют в большом количестве виртуальных сред и начнут тестировать в реальности🍭
Хотя SIMA 2 представляет собой значительный шаг на пути к «универсальному, интерактивному искусственному интеллекту» (цитата из блога), проект остаётся исследовательским, и его текущие ограничения указывают на ключевые направления для будущих исследований. Мы видим, что агенты всё ещё испытывают трудности с очень сложными задачами, требующими длительного планирования, многошагового рассуждения и проверки целей. Также у SIMA 2 относительно короткая память о взаимодействиях — агенту приходится использовать ограниченный контекст для обеспечения быстрой генерации
Посмотреть больше демок: тут
Одна из самых интересных новых возможностей SIMA 2 — это способность к самообучению и самосовершенствованию. Исследователи обнаружили, что в процессе обучения агенты могут выполнять всё более сложные новые задачи, опираясь на опыт проб и ошибок, а также на обратную связь, генерируемую Gemini. Модель дообучается на уже завершённых эпизодах, тем самым закрепляя навыки.
Кроме того, это позволило прокачать перенос приобретённых знаний — например, применять концепцию «добычи ресурсов» из одной игры к аналогичной концепции «сбора урожая» в другой. В результате SIMA 2 демонстрирует уровень выполнения задач значительно ближе к человеческому, чем SIMA 1.
Авторы тестировали модель суммарно на 13 играх от 8 компаний, разделив их на тренировочные и валидационные, которые модели не показывают до момента тестирования. На первой группе доля успешно выполненных задач составила 68% (против 75% у людей и 31% у SIMA 1), а на второй — чуть меньше 15% (при 0-2% у SIMA 1).
На этом в DeepMind не остановились, а запустили модель играть в Genie 3 — генеративную модель на основе видео-генератора, обученную создавать интерактивные виртуальные миры (см. тут). Никаких конкретных указаний метрик или качества не дают, лишь пару примеров — их и прикрепил к посту. Ещё раз: тут две модели симулируют для игрока мир: одна переводит текстовые команды в действия и формирует ответы, другая — генерирует игровой мир, принимающий действия на вход.
В следующей серии ждём, как агента натренируют в большом количестве виртуальных сред и начнут тестировать в реальности
Хотя SIMA 2 представляет собой значительный шаг на пути к «универсальному, интерактивному искусственному интеллекту» (цитата из блога), проект остаётся исследовательским, и его текущие ограничения указывают на ключевые направления для будущих исследований. Мы видим, что агенты всё ещё испытывают трудности с очень сложными задачами, требующими длительного планирования, многошагового рассуждения и проверки целей. Также у SIMA 2 относительно короткая память о взаимодействиях — агенту приходится использовать ограниченный контекст для обеспечения быстрой генерации
Посмотреть больше демок: тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
Anthropic зафиксировали первый официальный случай крупной кибератаки, выполненной с помощью ИИ. Стартап утверждает, что за операцией стоит китайская государственная группировка.
По данным Anthropic, это был даже не единичный случай, а целая кибершпионская кампания, целью которой были около тридцати организаций по всему миру. Среди них бигтех, финансовые институты, хим.производства и государственные агентства.
Преступники использовали Claude Code и "агента на основе Claude". Модельку джейлбрейкнули, попросив ее выполнять мелкие задачи без раскрытия истинной цели и убедив, что она работает для легальной фирмы кибербезопасности.
Ну а дальше все как по маслу. Модель провела разведку инфраструктуры целевой организации, написала эксплойты, получила нужные доступы, создала бэкдоры, украла данные и даже услужливо написала по всему этому подробную документацию😍
По оценке Anthropic, вмешательство человека во всем этом требовалось 4-6 раз: преступники автоматизировали всю деятельность на 90%. Отловить атаку удалось благодаря тому, что аналитики заметики подозрительную активность и тут же запустили расследование.
Большиство запланированных атак, по словам стартапа, удалось предотвратить, и все же преступники «успешно компрометировали небольшое число случаев».
Вот вам и весь хваленый элаймент🤠
По данным Anthropic, это был даже не единичный случай, а целая кибершпионская кампания, целью которой были около тридцати организаций по всему миру. Среди них бигтех, финансовые институты, хим.производства и государственные агентства.
Преступники использовали Claude Code и "агента на основе Claude". Модельку джейлбрейкнули, попросив ее выполнять мелкие задачи без раскрытия истинной цели и убедив, что она работает для легальной фирмы кибербезопасности.
Ну а дальше все как по маслу. Модель провела разведку инфраструктуры целевой организации, написала эксплойты, получила нужные доступы, создала бэкдоры, украла данные и даже услужливо написала по всему этому подробную документацию
По оценке Anthropic, вмешательство человека во всем этом требовалось 4-6 раз: преступники автоматизировали всю деятельность на 90%. Отловить атаку удалось благодаря тому, что аналитики заметики подозрительную активность и тут же запустили расследование.
Большиство запланированных атак, по словам стартапа, удалось предотвратить, и все же преступники «успешно компрометировали небольшое число случаев».
Вот вам и весь хваленый элаймент
Please open Telegram to view this post
VIEW IN TELEGRAM
Групповые чаты в ChatGPT
The rollout so far is only for users in Japan, New Zealand, South Korea and Taiwan
Классный мув
В блоге
The rollout so far is only for users in Japan, New Zealand, South Korea and Taiwan
Классный мув
В блоге
🤯5
NotebookLM научился в картинки и рукописные тексты. А еще добавили deep research.
Forwarded from Data Secrets
Андрей Карпаты: «ИИ – это ПО 2.0, и оно автоматизирует то, что можно проверить»
Понравился свежий емкий пост Карпаты на вечную тему автоматизации в эпоху ИИ. Подготовили сокращенный перевод:
Понравился свежий емкий пост Карпаты на вечную тему автоматизации в эпоху ИИ. Подготовили сокращенный перевод:
ИИ часто сравнивают с историческими прорывами: электричеством, промышленной революцией и тд. Но, по-моему, самая точная аналогия – ИИ как новая вычислительная парадигма, Software 2.0.
В обоих случаях речь про автоматизацию обработки цифровой информации. В 80-х автоматизировались задачи, которые сводились к механическому преобразованию информации по простым, чётко формализуемым правилам (например, бухгалтерия).
Сейчас же, с ИИ, мы можем автоматизировать то, что вручную описать невозможно, но можно проверить. Мы задаем таргет (например, accuracy) и с помощью градиентного спуска ищем в пространстве алгоритмов нейросеть, которая оптимизирует этот таргет лучше всего.
Это и есть Software 2.0, и в этой парадигме ключевым факторов автоматизируемости задачи выступает ее проверяемость. Лучше всего можно автоматизировать именно то, что легко проверить.
Если задача непроверяема, останется надеяться на волшебную обобщающую способность нейросетей. Именно поэтому прогресс ИИ такой зубчатый: в проверяемых задачах прогресс стремительный (код, математика, головоломки), а вот многое другое отстает (творчество, стратегия, здравый смысл).
Software 1.0 легко автоматизирует то, что можно формально описать.
Software 2.0 легко автоматизирует то, что можно проверить.
Forwarded from Data Secrets
Сэм Альтман совместно с Льюисом Андре основал компанию, заявленную как «новый тип R&D-организации»
Компания под названием Episteme намерена нанимать выдающихся исследователей из разных областей и давать им возможность заниматься своими исследованиями без бюрократии и давления со стороны коммерции.
Сотрудникам они обещают все необходимые ресурсы, инфраструктуру и поддержку. Также исследователи будут получать долю в компании.
Цель – заниматься идеями, которые могут стать прорывными в долгосроке. В академии на такие обычно не хватает денег, а в индустрии они не получают достаточно внимания или свободы, потому что промышленность ориентирована на быстрые результаты и прибыль.
По темам целятся в пересечение физики, биологии, вычислений и энергии. То есть все равно в те области, где значимые исследования в итоге могут принести значимый экономический эффект (но в анонсе, конечно, говорится только про эффект для человечества).
В общем, пока звучит слишком хорошо для того, чтобы быть правдой, но новость интересная. Посмотрим, кто пойдет к ним работать.
Сайт: episteme.com
Компания под названием Episteme намерена нанимать выдающихся исследователей из разных областей и давать им возможность заниматься своими исследованиями без бюрократии и давления со стороны коммерции.
Сотрудникам они обещают все необходимые ресурсы, инфраструктуру и поддержку. Также исследователи будут получать долю в компании.
Цель – заниматься идеями, которые могут стать прорывными в долгосроке. В академии на такие обычно не хватает денег, а в индустрии они не получают достаточно внимания или свободы, потому что промышленность ориентирована на быстрые результаты и прибыль.
По темам целятся в пересечение физики, биологии, вычислений и энергии. То есть все равно в те области, где значимые исследования в итоге могут принести значимый экономический эффект (но в анонсе, конечно, говорится только про эффект для человечества).
В общем, пока звучит слишком хорошо для того, чтобы быть правдой, но новость интересная. Посмотрим, кто пойдет к ним работать.
Сайт: episteme.com
❤2🤯1
Forwarded from 42 секунды
CNews: Яндекс представил платформу с идеями применения ИИ
– Яндекс запустил площадку «Промптхаб» с идеями применения ИИ
– На платформе уже доступны промпты для ИИ на все случаи жизни
– Пользователи и компании могут добавлять собственные промпты
– Понравившийся вариант можно сразу отправить в чат с «Алисой AI»
– Качество ответов нейросети напрямую зависит от хорошего промпта
– На «Промптхабе» собрано уже более 1 тыс. готовых промптов
– В готовые промпты нужно только подставить свою информацию
– Каталог промптов на площадке охватывает уже 50 разных тематик
– Среди них: учеба, карьера, здоровье, финансы, технологии и др.
– Есть промпты для планирования поездок, плана тренировок, меню и др.
– Искать промпты в каталоге можно с помощью умного поиска
– Перед публикацией новые промпты будут проходить модерацию
– На платформе доступны курсы по ИИ для разного уровня подготовки
@ftsec
– Яндекс запустил площадку «Промптхаб» с идеями применения ИИ
– На платформе уже доступны промпты для ИИ на все случаи жизни
– Пользователи и компании могут добавлять собственные промпты
– Понравившийся вариант можно сразу отправить в чат с «Алисой AI»
– Качество ответов нейросети напрямую зависит от хорошего промпта
– На «Промптхабе» собрано уже более 1 тыс. готовых промптов
– В готовые промпты нужно только подставить свою информацию
– Каталог промптов на площадке охватывает уже 50 разных тематик
– Среди них: учеба, карьера, здоровье, финансы, технологии и др.
– Есть промпты для планирования поездок, плана тренировок, меню и др.
– Искать промпты в каталоге можно с помощью умного поиска
– Перед публикацией новые промпты будут проходить модерацию
– На платформе доступны курсы по ИИ для разного уровня подготовки
@ftsec
42 секунды
CNews: Яндекс представил платформу с идеями применения ИИ – Яндекс запустил площадку «Промптхаб» с идеями применения ИИ – На платформе уже доступны промпты для ИИ на все случаи жизни – Пользователи и компании могут добавлять собственные промпты – Понравившийся…
alice.yandex.ru
Промптхаб — место обмена промптами для Алисы AI и других нейросетей
База работающих промптов, курсы и челленджи для нейросетей. Учитесь на кейсах экспертов, делитесь своими решениями и применяйте всё сразу в Алисе AI бесплатно.
❤2
https://tendem.ai
Интересный агентский сетап о коротком пишет Михаил Парахин.
Сервис объединяет AI и людей для выполнения агентских задач. Люди судя по посту из Толоки.
Интересный агентский сетап о коротком пишет Михаил Парахин.
Сервис объединяет AI и людей для выполнения агентских задач. Люди судя по посту из Толоки.
tendem.ai
AI + Human Agent to get tasks done
Skip the freelancer admin. Tendem handles your tedious tasks combining the speed of AI with the judgment of human experts.
Forwarded from GPT/ChatGPT/AI Central Александра Горного
Gemini 3 Pro пока не вышла, но результаты бенчмарков уже есть. Карточка модели тоже утекла: https://web.archive.org/web/20251118111103if_/https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
Релиз, возможно, уже сегодня.
Релиз, возможно, уже сегодня.
GPT/ChatGPT/AI Central Александра Горного
Gemini 3 Pro пока не вышла, но результаты бенчмарков уже есть. Карточка модели тоже утекла: https://web.archive.org/web/20251118111103if_/https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf Релиз, возможно, уже сегодня.
Gemini 3 Pro доступен в AI Stuido
Вчера ещё вышел Grok 4.1, но там ничего примечательного, хотя модель выбивалась в топ до пришествия нового Gemini
• our most intelligent model yet
• SOTA reasoning
• 1501 Elo on LMArena
• next-level vibe coding capabilities
• complex multimodal understanding
Вчера ещё вышел Grok 4.1, но там ничего примечательного, хотя модель выбивалась в топ до пришествия нового Gemini
https://www.theverge.com/news/822833/google-antigravity-ide-coding-agent-gemini-3-pro
Кратко, что пишут в статье The Verge про Antigravity:
Кратко, что пишут в статье The Verge про Antigravity:
1. Что это такое
• Google представила Antigravity — новый «agent-first» инструмент разработки (IDE), построенный вокруг Gemini 3 Pro, но умеющий работать и с другими моделями (Claude Sonnet 4.5, OpenAI GPT-OSS).
• Задумка: IDE, где в центре не подсказки кода, а полноценные агенты, которые могут действовать сами — в редакторе, терминале и браузере.
2. Как он работает
• Antigravity поддерживает несколько агентов одновременно, у них есть прямой доступ к:
• редактору кода,
• терминалу,
• браузеру.
• Агенты не просто «что-то делают в фоне», а обязаны отчитываться о своей работе.
3. Артефакты (Artifacts) — «доказательства работы»
• Ключевая идея — каждый агент по ходу задачи создает Artifacts:
• списки задач и план,
• скриншоты,
• записи с браузера,
• прочие отчётные объекты.
• Google позиционирует это как более понятный способ проверки работы, чем длинные логи действий и tool calls.
4. Два режима использования
• Editor view — классический IDE-режим à la Cursor / GitHub Copilot: код, сбоку агент.
• Manager view — «миссион-контрол»: управление несколькими агентами в разных воркспейсах параллельно, больше автономии агентов.
5. Обратная связь и «память» агентов
• Можно оставлять комментарии прямо к конкретным артефактам, и агент будет принимать их во внимание без перезапуска задачи.
• Агенты могут «учиться на прошлой работе» — запоминать куски кода и последовательности шагов для будущих задач.
6. Доступность и условия
• Antigravity уже доступен в публичном превью.
• Работает на Windows, macOS и Linux.
• Бесплатен, с «щедрыми лимитами» на Gemini 3 Pro; лимиты обновляются каждые 5 часов, и Google говорит, что лишь «очень малая доля power-юзеров» упрётся в потолок.
The Verge
Google Antigravity is an ‘agent-first’ coding tool built for Gemini 3
It’s meant to turn AI into an “active partner.”
😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 3 Pro доступен в Figma Make
https://www.figma.com/blog/gemini-3-pro-is-now-available-in-figma-make/
https://www.figma.com/blog/gemini-3-pro-is-now-available-in-figma-make/
❤🔥2
Forwarded from Denis Sexy IT 🤖
Если честно, все сложнее становится тестировать новые модели – так как они каждый раз все лучше и придумывать им задачи сложнее, уже не так просто
Пара моих тестов, с которыми модель прекрасно справилась с первого раза:
– Сделать генератор кафедральных соборов
– сделать Space Invaders, но использовать старую игру «Cапер» как графический движок
– Воссоздать Sci-Fi UI из Midjourney
– Сделать интерфейс iPod из 90-х и наполнить его песнями
– Сделать енкодер/декодер обычного текста в шахматные ходы, с рендером превью расположения фигур
Короче, выглядит так что задача веб-фронтенда уже решена (уже в который раз за этот год)☕️ Отличная модель от Google
Если хочется официальных деталей, они тут:
https://blog.google/products/gemini/gemini-3-collection/
Пара моих тестов, с которыми модель прекрасно справилась с первого раза:
– Сделать генератор кафедральных соборов
– сделать Space Invaders, но использовать старую игру «Cапер» как графический движок
– Воссоздать Sci-Fi UI из Midjourney
– Сделать интерфейс iPod из 90-х и наполнить его песнями
– Сделать енкодер/декодер обычного текста в шахматные ходы, с рендером превью расположения фигур
Короче, выглядит так что задача веб-фронтенда уже решена (уже в который раз за этот год)
Если хочется официальных деталей, они тут:
https://blog.google/products/gemini/gemini-3-collection/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1