– Модель заметно прокачали в кодинге, математике и работе на длинных контекстах и с изображениями. На AIME 25 у нее теперь 100% (GPT-5.1 била 94), а на SWE-bench Verified – 80% (вместо 76.3 у 5.1).
– По бенчмаркам OpenAI упрямо сравнивает свою модель только с ее же предыдущими версиями, игнорируя конкурентов. Но по уровню выглядит даже чуть лучше Gemini 3 Pro.
– В ChatGPT GPT‑5.2 Instant, Thinking и Pro начнут катать уже сегодня, в API доступ открыт. Цена относительно 5.1 и 5 немного повысилась, см последний скрин.
В целом OpenAI как будто действительно постарались на этот раз. Вот что конкуренция творит!
https://openai.com/index/introducing-gpt-5-2/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤101🔥45🤔23👍15😁7❤🔥2🗿1
Самый крутой скачок GPT-5.2 произошел, пожалуй, на ARC-AGI
На ARC-AGI 1 модель достала 86.2% (GPT-5.1 берет 72.8%, Gemini 3 Pro – 75). Это серьезный рост.
При этом GPT-5.2 Pro с повышенным уровнем ризонинга X-High скорит уже 90.5% при стоимости $11.64/задачу. Всего год назад сотой считалась нерелизнутая o3-High с результатом 88% и $4.5k/задачу. Это означает, что за год эффективность выросла в 390 раз.
На ARC-AGI 2 все еще интереснее. Там скачок произошел с 17.6 до 52.9%! Самый близкий по скору конкурент – Claude Opus 4.5 – выбивает всего 37.6%. Просто напоминаем, что между релизами GPT-5.1 и 5.2 прошел месяц😐
GPT 5.2 Pro X-High точно скорит еще больше, но организаторы бенчмарка пишут, что пока не смогли достоверно проверить ее результаты из-за API timeouts. Средний уровень человека на ARC-AGI 2 – около 60%. Интересно, побьет ли.
На ARC-AGI 1 модель достала 86.2% (GPT-5.1 берет 72.8%, Gemini 3 Pro – 75). Это серьезный рост.
При этом GPT-5.2 Pro с повышенным уровнем ризонинга X-High скорит уже 90.5% при стоимости $11.64/задачу. Всего год назад сотой считалась нерелизнутая o3-High с результатом 88% и $4.5k/задачу. Это означает, что за год эффективность выросла в 390 раз.
На ARC-AGI 2 все еще интереснее. Там скачок произошел с 17.6 до 52.9%! Самый близкий по скору конкурент – Claude Opus 4.5 – выбивает всего 37.6%. Просто напоминаем, что между релизами GPT-5.1 и 5.2 прошел месяц
GPT 5.2 Pro X-High точно скорит еще больше, но организаторы бенчмарка пишут, что пока не смогли достоверно проверить ее результаты из-за API timeouts. Средний уровень человека на ARC-AGI 2 – около 60%. Интересно, побьет ли.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤89👍38🔥27😁5🤔4 3❤🔥1🤨1
MWS Cloud запустила сервис по установке серверов с GPU в периметре предприятий
Компания предлагает готовые серверы с графическими ускорителями прямо у вас на предприятии. Можно взять в аренду или купить — всё зависит от задач и бюджета.
Что внутри:
• Настройка и помощь с выбором конфигурации под ваши проекты;
• Поддержка на всех этапах эксплуатации;
• Развёртывание на площадке компании или в дата-центре MWS Cloud;
• Доступны сервера с 7 видами GPU и более 20 конфигураций серверов.
Идеально для промышленных, финансовых и медицинских компаний, которым нужен закрытый контур и соблюдение всех норм безопасности и законодательства.
Подробнее: https://mws.ru/services/mws-gpu-on-prem/
Компания предлагает готовые серверы с графическими ускорителями прямо у вас на предприятии. Можно взять в аренду или купить — всё зависит от задач и бюджета.
Что внутри:
• Настройка и помощь с выбором конфигурации под ваши проекты;
• Поддержка на всех этапах эксплуатации;
• Развёртывание на площадке компании или в дата-центре MWS Cloud;
• Доступны сервера с 7 видами GPU и более 20 конфигураций серверов.
Идеально для промышленных, финансовых и медицинских компаний, которым нужен закрытый контур и соблюдение всех норм безопасности и законодательства.
Подробнее: https://mws.ru/services/mws-gpu-on-prem/
👍20❤7🔥3😁3👏1👌1
Media is too big
VIEW IN TELEGRAM
Сегодня OpenAI исполняется ровно 10 лет
О создании компании было объявлено 12 декабря 2015 года. Начальный бюджет – 1 миллиард долларов – был собран небольшой группой инвесторов-энтузиастов. Вот оригинальный блогпост, а еще в честь праздника компания выпустила видео⬆️
В 2015 алгоритмы еще плохо отличали кошечек от собачек, и люди не верили, что машина когда-нибудь сможет заговорить. А сегодня ИИ уже неотъемлемая часть жизни и работы, а стартап Альтмана оценивается в 500 миллиардов долларов.
Но ChatGPT вышел только в 2022. А чем компания занималась до этого? Давайте вспомним:
– OpenAI Gym (2016). Платформа для тестирования алгоритмов ИИ в симулированных средах. Она очень быстро стала тогда стандартом в исследованиях. Следом вышел Universe – инструмент для обучения агентов взаимодействию с реальными программами и играми.
– OpenAI Five (2018). Ботов обучили играть в Dota 2 с помощью PPO. В итоге они обыграли топ-игроков мира, обучившись на 45 000 годах симуляций за 10 месяцев.
– Robotic Hand (2018). Знаменитый проект, в котором робо-руку учили собирать кубик Рубика.
Поздравляем: если вы знакомы с этими проектами – вы олд👴 . После них уже пошло-поехало: GPT-2 в 2019, GPT-3 в 2020, DALL-E и первый Codex в 2021, и ChatGPT в 2022.
Короче, поздравляем компанию с юбилеем!
О создании компании было объявлено 12 декабря 2015 года. Начальный бюджет – 1 миллиард долларов – был собран небольшой группой инвесторов-энтузиастов. Вот оригинальный блогпост, а еще в честь праздника компания выпустила видео
В 2015 алгоритмы еще плохо отличали кошечек от собачек, и люди не верили, что машина когда-нибудь сможет заговорить. А сегодня ИИ уже неотъемлемая часть жизни и работы, а стартап Альтмана оценивается в 500 миллиардов долларов.
Но ChatGPT вышел только в 2022. А чем компания занималась до этого? Давайте вспомним:
– OpenAI Gym (2016). Платформа для тестирования алгоритмов ИИ в симулированных средах. Она очень быстро стала тогда стандартом в исследованиях. Следом вышел Universe – инструмент для обучения агентов взаимодействию с реальными программами и играми.
– OpenAI Five (2018). Ботов обучили играть в Dota 2 с помощью PPO. В итоге они обыграли топ-игроков мира, обучившись на 45 000 годах симуляций за 10 месяцев.
– Robotic Hand (2018). Знаменитый проект, в котором робо-руку учили собирать кубик Рубика.
Поздравляем: если вы знакомы с этими проектами – вы олд
Короче, поздравляем компанию с юбилеем!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤127🎉37🔥34👍10🗿6😁5👾4🆒1
Google обновили агента Gemini Deep Research: теперь он работает на базе Gemini 3 и выбивает 46.4% на HLE
Систему дотюнивали с помощью многоступенчатого RL, чтобы она точнее искала и меньше галлюцинировала на сложных запросах.
В итоге на Humanity’s Last Exam скор относительно Gemini 3 Pro вырос на три процентных пункта, а на внутреннем бенчмарке DeepSearch QA – на десять.
Этот внутренний бенчмарк, Google, кстати, опенсорснули (www.kaggle.com/benchmarks/google/dsqa).
P.S. На графике обратите внимание, что GPT-5 Pro специально гоняют в несколько потоков (именно так из коробки работает Deep Research у Google и OpenAI), чтобы сравнение было честным.
Систему дотюнивали с помощью многоступенчатого RL, чтобы она точнее искала и меньше галлюцинировала на сложных запросах.
В итоге на Humanity’s Last Exam скор относительно Gemini 3 Pro вырос на три процентных пункта, а на внутреннем бенчмарке DeepSearch QA – на десять.
Этот внутренний бенчмарк, Google, кстати, опенсорснули (www.kaggle.com/benchmarks/google/dsqa).
P.S. На графике обратите внимание, что GPT-5 Pro специально гоняют в несколько потоков (именно так из коробки работает Deep Research у Google и OpenAI), чтобы сравнение было честным.
❤48👍21🔥7😁2
Google выпустили статью про SIMA-2. Оказалось, что агент способен на самообучение.
SIMA-2 – это ИИ-агент для игр. Первая его версия вышла примерно полтора года назад, вторую релизнули в ноябре, но статью выложили только сейчас.
Апгрейднули SIMA-2 относительно первой SIMA довольно сильно: теперь модель способна рассуждать и генерализоваться на новые игры, а не просто механически выполнять какие-то действия.
Особой магии под капотом нет – по сути, это дотюненная на игровые действия Gemini Flash-Lite. В статье, конечно, много занятных деталей про обучение, но самое интересное, на наш взгляд, спрятано в разделе про self-improvement.
Исследователи попробовали поместить агента в совершенно новую для него игру ASKA, не дали никаких инструкций или человеческих демонтраций, и запустили процесс самоулучшения.
Агент (внутри которого, напоминаем, сидит LLM) был сам себе тестировщиком, исполнителем и reward-моделькой. Один экземпляр Gemini – Task setter – придумывал задачку нужного уровня -> SIMA пробовал ее исполнять -> другой экземпляр Gemini оценивал успех -> на основе этого фидбэка обновлялась политика -> и так много-много итераций с постепенным усложнением задач.
В итоге в игре, которую агент никогда не видел, дообученная таким образом система превзошла не только исходную SIMA-2, но и человека! И это буквально полностью автономное обучение на основе собственного опыта.
Какой-то RL-v2
Советуем почитать полностью: arxiv.org/pdf/2512.04797
SIMA-2 – это ИИ-агент для игр. Первая его версия вышла примерно полтора года назад, вторую релизнули в ноябре, но статью выложили только сейчас.
Апгрейднули SIMA-2 относительно первой SIMA довольно сильно: теперь модель способна рассуждать и генерализоваться на новые игры, а не просто механически выполнять какие-то действия.
Особой магии под капотом нет – по сути, это дотюненная на игровые действия Gemini Flash-Lite. В статье, конечно, много занятных деталей про обучение, но самое интересное, на наш взгляд, спрятано в разделе про self-improvement.
Исследователи попробовали поместить агента в совершенно новую для него игру ASKA, не дали никаких инструкций или человеческих демонтраций, и запустили процесс самоулучшения.
Агент (внутри которого, напоминаем, сидит LLM) был сам себе тестировщиком, исполнителем и reward-моделькой. Один экземпляр Gemini – Task setter – придумывал задачку нужного уровня -> SIMA пробовал ее исполнять -> другой экземпляр Gemini оценивал успех -> на основе этого фидбэка обновлялась политика -> и так много-много итераций с постепенным усложнением задач.
В итоге в игре, которую агент никогда не видел, дообученная таким образом система превзошла не только исходную SIMA-2, но и человека! И это буквально полностью автономное обучение на основе собственного опыта.
Какой-то RL-v2
Советуем почитать полностью: arxiv.org/pdf/2512.04797
1❤124👍46🔥30⚡4🤯4 4😁1
Самая внезапная новость за неделю: Zoom (да, тот самый) выбил со своей моделькой SOTA результат на Humanity’s Last Exam
Со скором 48.1% они опередили предыдущего лидера – Gemini 3 Pro (+tool) – почти на 3 процентных пункта.
Но вообще, хотя и результат объективно крутой, надо заметить, что говорить о таком сравнении не очень честно. У Zoom не одна модель, а хитрый ансамбль, или точнее федеративная AI-система.
Несколько моделей (включая собственные от Zoom + партнерские от Meta, OpenAI и Anthropic) работают в пайплайне: маршрутизируют задачи, генерируют варианты ответов, проверяют, критикуют друг друга и объединяют результаты.
https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/
Со скором 48.1% они опередили предыдущего лидера – Gemini 3 Pro (+tool) – почти на 3 процентных пункта.
Но вообще, хотя и результат объективно крутой, надо заметить, что говорить о таком сравнении не очень честно. У Zoom не одна модель, а хитрый ансамбль, или точнее федеративная AI-система.
Несколько моделей (включая собственные от Zoom + партнерские от Meta, OpenAI и Anthropic) работают в пайплайне: маршрутизируют задачи, генерируют варианты ответов, проверяют, критикуют друг друга и объединяют результаты.
https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/
🔥139😁64🤔26❤18👍9🤯8❤🔥2
Google понемногу двигаются к тому, чтобы обучать роботов с помощью ИИ-моделей мира
Они выпустили статью, в которой сделали первый большой шаг к соединению Veo и робототехники. Это пока не про полноценное обучение роботов в ИИ-симуляции (не обольщаемся), но результаты все равно интересные и важные.
Кратко: у исследователей получилось научить Veo-2 предсказывать, что конкретно будет видеть робот, совершая те или иные действия.
Они взяли базовую Veo-2 и дотюнили ее по первому кадру + действиям робота генерировать будущие согласованные кадры с его 4 камер. Это называется action-conditioned rollout и, по сути, позволяет недорого и безопасно оценивать политику робота с помощью одной только world модели.
Полученный дотюн, кстати, красиво назвали Veo (Robotics).
Чем это круче, чем обычная симуляция?
Строгие физические симуляторы работают хорошо, если ситуация простая и предсказумая. ИИ-симуляцию можно масштабировать на нетривиальные миры. Более того, каждый объект в физ.симуляторе требует четких ассетов и ручной настройки + больших вычислений. Сильно далеко на таком не уедешь. А тут – добавляй новые предметы и кейсы сколько хочешь, достаточно промт написать или отредактировать начальный кадр с помощью Nano Banana.
Конечно, есть и минусы. В основном они касаются качества моделирования строгой, в особенности мелкой, физики. Но тут еще все впереди.
По сути: Google научились довольно сносно (см последний график) эвалить политику робота с помощью Veo. Добавь обновление политики, и уже получишь обучение с подкреплением. Пока что этого не делают сознательно, опять же из-за недостаточной точности World model. Но еще раз: шаг большой.
https://www.alphaxiv.org/abs/2512.10675
Они выпустили статью, в которой сделали первый большой шаг к соединению Veo и робототехники. Это пока не про полноценное обучение роботов в ИИ-симуляции (не обольщаемся), но результаты все равно интересные и важные.
Кратко: у исследователей получилось научить Veo-2 предсказывать, что конкретно будет видеть робот, совершая те или иные действия.
Они взяли базовую Veo-2 и дотюнили ее по первому кадру + действиям робота генерировать будущие согласованные кадры с его 4 камер. Это называется action-conditioned rollout и, по сути, позволяет недорого и безопасно оценивать политику робота с помощью одной только world модели.
Полученный дотюн, кстати, красиво назвали Veo (Robotics).
Чем это круче, чем обычная симуляция?
Строгие физические симуляторы работают хорошо, если ситуация простая и предсказумая. ИИ-симуляцию можно масштабировать на нетривиальные миры. Более того, каждый объект в физ.симуляторе требует четких ассетов и ручной настройки + больших вычислений. Сильно далеко на таком не уедешь. А тут – добавляй новые предметы и кейсы сколько хочешь, достаточно промт написать или отредактировать начальный кадр с помощью Nano Banana.
Конечно, есть и минусы. В основном они касаются качества моделирования строгой, в особенности мелкой, физики. Но тут еще все впереди.
По сути: Google научились довольно сносно (см последний график) эвалить политику робота с помощью Veo. Добавь обновление политики, и уже получишь обучение с подкреплением. Пока что этого не делают сознательно, опять же из-за недостаточной точности World model. Но еще раз: шаг большой.
https://www.alphaxiv.org/abs/2512.10675
3❤72🔥27👍17😁1
Новый скандал с OpenAI: публикуемые исследования теперь подвергаются в компании жесткой цензуре
Недавно из компании ушел старший экономический исследователь Том Каннингем. Wired получили доступ к его прощальному меморандуму и выяснили, что уволился он из-за того, что руководство «превратило исследовательскую команду в инструмент пропаганды».
Оказывается, в компании теперь очень осторожно относятся к публикации работ, относящимся к рискам ИИ для экономики. Например, вместо исследований о влиянии ИИ на рабочие места, они предпочитают опубликовать какие-нибудь положительные результаты.
По этой же причине из стартапа ушел еще как минимум один сотрудник экономической команды. В других подразделениях несколько ушедших сотрудников тоже жаловались на «сложности с публикацией важных работ».
Компания цензуру отрицает. Но теперь экономические исследования курирует Аарон Чаттерджи. В сентябре именно он выпустил отчет о том, как ChatGPT ускоряет и удешевляет работу.
Недавно из компании ушел старший экономический исследователь Том Каннингем. Wired получили доступ к его прощальному меморандуму и выяснили, что уволился он из-за того, что руководство «превратило исследовательскую команду в инструмент пропаганды».
Оказывается, в компании теперь очень осторожно относятся к публикации работ, относящимся к рискам ИИ для экономики. Например, вместо исследований о влиянии ИИ на рабочие места, они предпочитают опубликовать какие-нибудь положительные результаты.
«Команда отклонилась от реальных исследований к продвижению корпоративных интересов» – пишет Том.
По этой же причине из стартапа ушел еще как минимум один сотрудник экономической команды. В других подразделениях несколько ушедших сотрудников тоже жаловались на «сложности с публикацией важных работ».
Компания цензуру отрицает. Но теперь экономические исследования курирует Аарон Чаттерджи. В сентябре именно он выпустил отчет о том, как ChatGPT ускоряет и удешевляет работу.
This media is not supported in your browser
VIEW IN TELEGRAM
«Главной ошибкой Google было недооценить трансформеры» – Сергей Брин
Стэнфорд выпустил интересное Q&A с Сергеем Брином. В нем основатель Google говорит, что успех OpenAI, по сути, не в технической составляющей, а в том, что они поверили в скейлинг и чат-ботов.
Google выпустили трансформеры в 2017 году, но не восприняли их достаточно серьезно, чтобы инвестировать крупные суммы. То же самое – с чат-ботами. Google не хотели раскатывать подобное на пользователей, потому что боты «иногда говорили чепуху». А OpenAI выпустили – и сорвали куш.
А представьте, если бы Google не опубликовали статью о трансформерах, оставили технологию закрытой и сами влили в нее пару миллиардов в 2017…
youtu.be/0nlNX94FcUE?si=Hmj92pGtpTVfc3db
Стэнфорд выпустил интересное Q&A с Сергеем Брином. В нем основатель Google говорит, что успех OpenAI, по сути, не в технической составляющей, а в том, что они поверили в скейлинг и чат-ботов.
Google выпустили трансформеры в 2017 году, но не восприняли их достаточно серьезно, чтобы инвестировать крупные суммы. То же самое – с чат-ботами. Google не хотели раскатывать подобное на пользователей, потому что боты «иногда говорили чепуху». А OpenAI выпустили – и сорвали куш.
А представьте, если бы Google не опубликовали статью о трансформерах, оставили технологию закрытой и сами влили в нее пару миллиардов в 2017…
youtu.be/0nlNX94FcUE?si=Hmj92pGtpTVfc3db
😁231❤70🤔34👍15💯1