This media is not supported in your browser
VIEW IN TELEGRAM
Легенда Юнгер Шмидхубер опять поясняет за плагиат: на этот раз он доказывает, что CNN изобрел не Лекун
Напоминаем, что Шмидхубер – это тот самый ученый, который постоянно заявляет, что выдающие идеи ИИ – плагиат и воровство. По его словам:
– Хопфилд и Хинтон получили Нобелевскую премию незаслуженно, потому что украли идею из статьи шестидесятых годов
– Все, что сделали DeepSeek с R1, взято из статей Шмидхубера
– GAN – тоже его идея, а авторы основополагающей статьи про эту архитектуру наглые копирайтеры
– Трансформеры, естественно, придумал он, а не ребята из Google
Теперь же он утверждает, что Лекун с его CNN – тоже воришка, и что на самом деле ранние сверточные нейросети изобрел Кунихико Фукусим в Японии в 1979, а не Ян Лекун в конце восьмидесятых, как принято считать.
Шмидхубер даже продемонстрировал видео якобы 1986 года, на котором система Кунихико Фукусимы распознает рукописные цифры. Если что, то самое известное видео, на котором Лекун показывает то же самое, снято в 1989.
Верим?
Напоминаем, что Шмидхубер – это тот самый ученый, который постоянно заявляет, что выдающие идеи ИИ – плагиат и воровство. По его словам:
– Хопфилд и Хинтон получили Нобелевскую премию незаслуженно, потому что украли идею из статьи шестидесятых годов
– Все, что сделали DeepSeek с R1, взято из статей Шмидхубера
– GAN – тоже его идея, а авторы основополагающей статьи про эту архитектуру наглые копирайтеры
– Трансформеры, естественно, придумал он, а не ребята из Google
Теперь же он утверждает, что Лекун с его CNN – тоже воришка, и что на самом деле ранние сверточные нейросети изобрел Кунихико Фукусим в Японии в 1979, а не Ян Лекун в конце восьмидесятых, как принято считать.
Шмидхубер даже продемонстрировал видео якобы 1986 года, на котором система Кунихико Фукусимы распознает рукописные цифры. Если что, то самое известное видео, на котором Лекун показывает то же самое, снято в 1989.
Верим?
😁107 40 23👍8❤7💯5🔥2🕊1🤝1🆒1
Как ИИ взломал блокчейн контрактов на $4,6 млн: новое исследование Anthropic
Сразу дисклеймер: ничьи кошельки не пострадали, все тесты проводили в симуляции. Anthropic red team (ну просто на всякий случай😐 ) решили проверить, сколько денег современный ИИ способен "украсть", если дать ему такую задачу.
Они взяли 405 настоящих смарт-контрактов, которые реально взламывали в 2020–2025 годах (такие данные открыты) и сделали из этого бенчмарк SCONE-bench. Суть в том, что агента помещают в изолированный блокчейн-симулятор, который четко отражает состояние сети перед реальным взломом, и просят «Найти уязвимость и написать эксплойт, который увеличит баланс атакующего».
Итог: всего модели смогли написать рабочие эксплойты на сумму 550,1 миллион долларов в переводе на современный курс.
Но вы сейчас скажете: "Это просто зубрежка датасета", – и будете, в целом, правы. Только Anthropic тоже об этом подумали, и потому провели дополнительный эксперимент.
Они выбрали из всего датасета 34 контракта, взломанных после марта 2025 года (то есть после knowledge cutoff у моделей) и прогнали по ним Opus 4.5, Sonnet 4.5 и GPT-5.
Относительный результат почти не ухудшился: суммарная виртуальная добыча оказалась равна $4,6 млн, лучший результат – у Opus 4.5.
Вот в такое время живем.
Сразу дисклеймер: ничьи кошельки не пострадали, все тесты проводили в симуляции. Anthropic red team (ну просто на всякий случай
Они взяли 405 настоящих смарт-контрактов, которые реально взламывали в 2020–2025 годах (такие данные открыты) и сделали из этого бенчмарк SCONE-bench. Суть в том, что агента помещают в изолированный блокчейн-симулятор, который четко отражает состояние сети перед реальным взломом, и просят «Найти уязвимость и написать эксплойт, который увеличит баланс атакующего».
Итог: всего модели смогли написать рабочие эксплойты на сумму 550,1 миллион долларов в переводе на современный курс.
Но вы сейчас скажете: "Это просто зубрежка датасета", – и будете, в целом, правы. Только Anthropic тоже об этом подумали, и потому провели дополнительный эксперимент.
Они выбрали из всего датасета 34 контракта, взломанных после марта 2025 года (то есть после knowledge cutoff у моделей) и прогнали по ним Opus 4.5, Sonnet 4.5 и GPT-5.
Относительный результат почти не ухудшился: суммарная виртуальная добыча оказалась равна $4,6 млн, лучший результат – у Opus 4.5.
Вот в такое время живем.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥112🤯54👍20❤15😁7 7🤨4🤔2
Data Secrets
У Google Colab теперь есть официальная интеграция с VSCode Это значит, что наконец-то можно будет подключать локальные ноутбуки к средам Colab и, не выходя из IDE, использовать, например, TPU. Как это сделать: 1. В VSCode заходим в Extensions, ищем Google…
This media is not supported in your browser
VIEW IN TELEGRAM
Напоминаем, что совсем недавно они выкатились в VSCode: там стало возможным подключать локальные ноутбуки к средам Colab и, не выходя из IDE, использовать, например, TPU.
Теперь то же самое можно делать и в любимых ИИ-IDE.
Как подключить Colab в Cursor:
1. Скачиваем расширение Google Colab через Open VSX. Скачать можно через Extensions в самой IDE, но нужно выбрать маркетплейс Open VSX.
2. В IDE создаем или импортируем файл .ipynb в проект.
3. Кликаем Select Kernel справа сверху, выбираем Colab, входим в аккаунт и затем выбираем нужный runtime. Готово!
Приятно, да?
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥95👍24❤15😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кому обычные визуализации работы трансформера уже приелись: ребята из alphaXiv сделали красивейший интерактивный RL Visualizer
На примере игрушечной задачи прохождения лабиринта можно отслеживать, как шаг за шагом агенты учатся с помощью обучения с подкреплением, и сравнивать разные алгоритмы.
Например, можно посмотреть, в чем практическая разница между PPO и GRPO.
Полезная штука, чтобы освежить знания или интуитивное понимание RL. А еще это красиво.
www.alphaxiv.org/labs/rl-playground
На примере игрушечной задачи прохождения лабиринта можно отслеживать, как шаг за шагом агенты учатся с помощью обучения с подкреплением, и сравнивать разные алгоритмы.
Например, можно посмотреть, в чем практическая разница между PPO и GRPO.
Полезная штука, чтобы освежить знания или интуитивное понимание RL. А еще это красиво.
www.alphaxiv.org/labs/rl-playground
🔥102👍28❤16😁1👾1
Исследователи Яндекса представили RATE — новую систему оценки нейропереводов
RATE (Refined Assessment for Translation Evaluation) опирается на критерии естественности речи и, по сути, меняет оценку с «Переведено верно» на «Переведено по-человечески».
Например, если система перевела «Sorry, my bad» как «Приношу извинения, это моя вина» вместо «Извини, ошибся» — RATE заметит, что перевод звучит неестественно, потому что сеть выбрала слишком официальный тон. Обычно существующие системы такие детали игнорируют, и поэтому качество перевода сложно улучшать.
RATE оценивает перевод по трём главным для пользователя критериям: точность — верно ли передан смысл, естественность языка и соответствие стилю оригинала.
Благодаря такой детализации RATE выявляет в семь раз больше ошибок, чем другие методы оценки. При этом система не только отмечает наличие ошибки, но и оценивает её значимость.
В перспективе это очень весомая работа, потому что на основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели.
Статья о RATE была представлена на большой международной конференции EMNLP 2025. Почитать статью полностью можно здесь.
RATE (Refined Assessment for Translation Evaluation) опирается на критерии естественности речи и, по сути, меняет оценку с «Переведено верно» на «Переведено по-человечески».
Например, если система перевела «Sorry, my bad» как «Приношу извинения, это моя вина» вместо «Извини, ошибся» — RATE заметит, что перевод звучит неестественно, потому что сеть выбрала слишком официальный тон. Обычно существующие системы такие детали игнорируют, и поэтому качество перевода сложно улучшать.
RATE оценивает перевод по трём главным для пользователя критериям: точность — верно ли передан смысл, естественность языка и соответствие стилю оригинала.
Благодаря такой детализации RATE выявляет в семь раз больше ошибок, чем другие методы оценки. При этом система не только отмечает наличие ошибки, но и оценивает её значимость.
В перспективе это очень весомая работа, потому что на основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели.
Статья о RATE была представлена на большой международной конференции EMNLP 2025. Почитать статью полностью можно здесь.
24👍127🔥44❤25🗿8🤯1
Media is too big
VIEW IN TELEGRAM
Google продолжает генерировать занятные продукты: они запустили Workspace Studio – новый инструмент для быстрого создания агентов
Там можно будет проектировать, управлять и шарить ИИ-агентов вообще без написания кода. По сути это надстройка над Workspace: платформа рассчитана на агентов, которые будут работать в Gmail, Docs, Sheets, Drive, Chat, Slides, Meet и тд
Например, можно сделать:
– Агента, который постоянно будет мониторить вашу почту и собирать все рабочие письма в отдельную папку.
– Агента, который раз в месяц или по триггеру будет собирать метрики из нужных таблиц и делать по ним презентацию.
– Агента, который делает саммари по встречам в Meet и сразу ставит задачи на основе action items.
Google пишут, что в альфа‑тесте за 30 дней через агентов Workspace Studio уже прокрутили более 20 млн задач, от простых напоминаний до сложных процессов вроде юридического триажа и обработки клиентских обращений.
Пока продукт развернули только для бизнес-клиентов Workspace, но в январе обещают выпустить для всех
workspace.google.com/studio/
Там можно будет проектировать, управлять и шарить ИИ-агентов вообще без написания кода. По сути это надстройка над Workspace: платформа рассчитана на агентов, которые будут работать в Gmail, Docs, Sheets, Drive, Chat, Slides, Meet и тд
Например, можно сделать:
– Агента, который постоянно будет мониторить вашу почту и собирать все рабочие письма в отдельную папку.
– Агента, который раз в месяц или по триггеру будет собирать метрики из нужных таблиц и делать по ним презентацию.
– Агента, который делает саммари по встречам в Meet и сразу ставит задачи на основе action items.
Google пишут, что в альфа‑тесте за 30 дней через агентов Workspace Studio уже прокрутили более 20 млн задач, от простых напоминаний до сложных процессов вроде юридического триажа и обработки клиентских обращений.
Пока продукт развернули только для бизнес-клиентов Workspace, но в январе обещают выпустить для всех
workspace.google.com/studio/
🔥81❤15😎7😁6👍5👏1
Сэм Альтман планирует создать конкурента SpaceX
По данным WSJ, он пытался собрать средства, чтобы либо купить, либо войти в партнерство с какой-нибудь ракетной компанией. В первую очередь он рассматривал Stoke Space с покупкой контрольного пакета акций.
Целью было создать игрока, сопоставимого со SpaceX Илона Маска, и параллельно заложить основу для космической инфраструктуры под проекты OpenAI (сейчас модно говорить о переносе датацентров на орбиту).
Переговоры активно шли всю осень, но сейчас, как утверждают журналисты, приостановились.
Лицо Маска представили?🔵
По данным WSJ, он пытался собрать средства, чтобы либо купить, либо войти в партнерство с какой-нибудь ракетной компанией. В первую очередь он рассматривал Stoke Space с покупкой контрольного пакета акций.
Целью было создать игрока, сопоставимого со SpaceX Илона Маска, и параллельно заложить основу для космической инфраструктуры под проекты OpenAI (сейчас модно говорить о переносе датацентров на орбиту).
Переговоры активно шли всю осень, но сейчас, как утверждают журналисты, приостановились.
Лицо Маска представили?
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁176 41👍13 13❤5🔥5🗿2🐳1
Data Secrets
Гуманоид Atlas от Boston Dynamics на новом демо просто поразил всех плавностью и точностью движений Такое чувство, что он вовсе и не железный. Деталей обучения стартап не раскрывает, но верхнеуровнево пайплайн трейна примерно такой: 1. Сбор данных человеческих…
This media is not supported in your browser
VIEW IN TELEGRAM
Tesla и Илон Маск похвастались, что Optimus научился бегать
Выглядит действительно достаточно круто, конечно. Правда, в том же Boston Dynamics робота научили бегать и делать колесо еще 10 месяцев назад✌️
Выглядит действительно достаточно круто, конечно. Правда, в том же Boston Dynamics робота научили бегать и делать колесо еще 10 месяцев назад
Please open Telegram to view this post
VIEW IN TELEGRAM
😁126 35🔥18 12👍7🤔5❤4🗿2🐳1 1
Google выпустили Gemini 3 Deep Think, и это поразительная модель
Она выбивает 41% на HLE и 31.1% на ARC-AGI-2 (без использования инструментов). Это заметно лучше Gemini 3 Pro, а остальные модели вообще остаются далеко позади.
Модель использует «продвинутые параллельные рассуждения для одновременного изучения нескольких гипотез», то есть она задействует сразу несколько потоков параллельных рассуждений и каким-то образом объединяет результаты.
Джефф Дин написал, что эта модель «делает доступной технологию, которая выиграла золотые медали IMO и ICPC». Но обратите внимание, что это НЕ та же самая модель. Она просто построена на основе того варианта Gemini-2.5 Deep Think, которая выигрывала олимпиады (имеется в виду, использует ту же идею с параллельными потоками ризонинга), то есть Gemini 3 Deep Think может оказаться еще мощнее.
Пока модель доступна только подписчикам Ultra
blog.google/products/gemini/gemini-3-deep-think/
Она выбивает 41% на HLE и 31.1% на ARC-AGI-2 (без использования инструментов). Это заметно лучше Gemini 3 Pro, а остальные модели вообще остаются далеко позади.
Модель использует «продвинутые параллельные рассуждения для одновременного изучения нескольких гипотез», то есть она задействует сразу несколько потоков параллельных рассуждений и каким-то образом объединяет результаты.
Джефф Дин написал, что эта модель «делает доступной технологию, которая выиграла золотые медали IMO и ICPC». Но обратите внимание, что это НЕ та же самая модель. Она просто построена на основе того варианта Gemini-2.5 Deep Think, которая выигрывала олимпиады (имеется в виду, использует ту же идею с параллельными потоками ризонинга), то есть Gemini 3 Deep Think может оказаться еще мощнее.
Пока модель доступна только подписчикам Ultra
blog.google/products/gemini/gemini-3-deep-think/
🔥144❤30👍12 10 4🗿2🤝1
MWS AI выпустила корпоративную платформу MWS AI AGENTS PLATFORM для создания ИИ-агентов
Все как мы любим: можно создать агента на базе LLM в приятном визуальном интерфейсе, не написав ни одной строчки кода.
Количество возможных бизнес-сценариев огромно: построить можно даже мультимодальные и мультиагентные процессы. Агенты смогут распределять роли и функции, передавать друг другу результаты и проверять их.
Также на платформе есть уже готовые решения «из коробки», а еще инструменты для разметки и подготовки данных. А если с внедрением решения понадобится помощь, то MWS AI предоставят консультационную поддержку, обучение команд и экспертное сопровождение.
Кстати, в разработку платформы компания вложила 4 миллиарда рублей. Система разрабатывалась специально как enterprise-ready решение, так что надежность и устойчивость — на высоте.
Все как мы любим: можно создать агента на базе LLM в приятном визуальном интерфейсе, не написав ни одной строчки кода.
Количество возможных бизнес-сценариев огромно: построить можно даже мультимодальные и мультиагентные процессы. Агенты смогут распределять роли и функции, передавать друг другу результаты и проверять их.
Также на платформе есть уже готовые решения «из коробки», а еще инструменты для разметки и подготовки данных. А если с внедрением решения понадобится помощь, то MWS AI предоставят консультационную поддержку, обучение команд и экспертное сопровождение.
Кстати, в разработку платформы компания вложила 4 миллиарда рублей. Система разрабатывалась специально как enterprise-ready решение, так что надежность и устойчивость — на высоте.
😁28🗿15❤11👌6👍5 4⚡3🤯2🤨1🎄1
У Apple что-то пошло не по плану: за последние 72 часа из компании ушли четыре главы основных подразделений, включая директора по ИИ
➖ Джон Джаннандреа, глава AI/ML, уходит на пенсию из-за тупиковой ситуации с Siri и AI-функциями
➖ Алан Дай, глава UI-дизайна, переходит в Meta для руководства новой дизайн-студией.
С дизайном в Apple вообще все сложно после ухода Джони Айва к Альтману. Известно, что за последние пару месяцев OpenAI захантила из Apple порядка 40 сотрудников из отделов дизайна, hardware и wearables. Напоминаем, что сейчас Альтман совместно с Айвом разрабатывают семейство ИИ-устройств без экранов – анти-IPhone.
Влияет и конкуренция с Meta. Ранее Цукер забрал из Apple главу foundation models, а сейчас забирает у компании большую часть рынка носимых устройств со своими Ray-Ban Meta. Apple пытаются переключиться с Vision Pro на такие же ИИ-очки, но там 73% рынка уже контролирует Meta.
➖ Также ушли в отставку Кейт Адамс, старший вице-президент и генеральный советник, и Лиза Джексон, вице-президент по экологии, политике и социальным инициативам.
Короче, F
С дизайном в Apple вообще все сложно после ухода Джони Айва к Альтману. Известно, что за последние пару месяцев OpenAI захантила из Apple порядка 40 сотрудников из отделов дизайна, hardware и wearables. Напоминаем, что сейчас Альтман совместно с Айвом разрабатывают семейство ИИ-устройств без экранов – анти-IPhone.
Влияет и конкуренция с Meta. Ранее Цукер забрал из Apple главу foundation models, а сейчас забирает у компании большую часть рынка носимых устройств со своими Ray-Ban Meta. Apple пытаются переключиться с Vision Pro на такие же ИИ-очки, но там 73% рынка уже контролирует Meta.
Короче, F
Please open Telegram to view this post
VIEW IN TELEGRAM
1 154❤32🫡26 17😁5👍3🍾3🔥2🤔2🗿2🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
Это они еще про грамоты за русского медвежонка не слышали
1😁258😎30🔥15❤7🗿1
На AlphaArena заметили лидирующую mystery model. Илон Маск подтвердил, что это тестовая версия Grok 4.20 🫠
AlphaArena – это та самая площадка, где модели соревнуются в реальном трейдинге. Они получают капитал в 10000 долларов и торгуют криптовалютными контрактами, акциями и тд.
В основном модели, конечно же, уходят в минус. Но недавно на арене заметили новую модель под кодовым названием «mystery model». Она заметно выбилась вперед относительно соперников, торговала смело и фиксировала прибыль точно на пиках.
Оказалось, что это был новый Grok 4.20 (да, нолик в конце не случайный🔵 ). Это подтвердил Илон Маск в X.
Когда релиз – пока не говорят. Но был бы неплохой подарок от xAI на Новый Год
AlphaArena – это та самая площадка, где модели соревнуются в реальном трейдинге. Они получают капитал в 10000 долларов и торгуют криптовалютными контрактами, акциями и тд.
В основном модели, конечно же, уходят в минус. Но недавно на арене заметили новую модель под кодовым названием «mystery model». Она заметно выбилась вперед относительно соперников, торговала смело и фиксировала прибыль точно на пиках.
Оказалось, что это был новый Grok 4.20 (да, нолик в конце не случайный
Когда релиз – пока не говорят. Но был бы неплохой подарок от xAI на Новый Год
Please open Telegram to view this post
VIEW IN TELEGRAM
😁98☃20❤17 10🔥5👍2🗿2
С чего начать строить свой стартап, если есть крутая идея?
В мире куча талантливых разработчиков, которые могли бы построить большие успешные стартапы. Но, к сожалению, большинство из них остановились из-за "У меня недостаточно денег", "Я недостаточно опытен" или "А вдруг не получится".
Если не хочешь так же и искренне веришь в свою идею – пора начинать двигаться вперед, несмотря на страхи. Тем более, что сейчас есть море возможностей развить свой потенциал. Например, Молодежные акселераторы от Сбера:
✅ Если сомневаешься в себе – рядом будет наставник с опытом в предпринимательстве.
✅ Если не хватает знаний – можно пройти обучение и быстро тестировать гипотезы с помощью ИИ.
✅ Если нет капитала – дадут доступ к инвесторам.
В итоге ты сможешь превратить свою идею в рабочий MVP и найдешь первых клиентов или инвесторов. Нужно только начать по ссылке!
В мире куча талантливых разработчиков, которые могли бы построить большие успешные стартапы. Но, к сожалению, большинство из них остановились из-за "У меня недостаточно денег", "Я недостаточно опытен" или "А вдруг не получится".
Если не хочешь так же и искренне веришь в свою идею – пора начинать двигаться вперед, несмотря на страхи. Тем более, что сейчас есть море возможностей развить свой потенциал. Например, Молодежные акселераторы от Сбера:
✅ Если сомневаешься в себе – рядом будет наставник с опытом в предпринимательстве.
✅ Если не хватает знаний – можно пройти обучение и быстро тестировать гипотезы с помощью ИИ.
✅ Если нет капитала – дадут доступ к инвесторам.
В итоге ты сможешь превратить свою идею в рабочий MVP и найдешь первых клиентов или инвесторов. Нужно только начать по ссылке!
🗿14❤6😁5🦄2🔥1
Anthropic утверждают, что их сотрудники делегируют Claude уже 60% ежедневных задач
Всего года назад этот показатель составлял около 28%.
Компания также заявила, что ИИ повысил продуктивность инженеров на 30 процентных пунктов. И не только из-за автоматизации собственных задачек: например, среди сотрудников теперь существует негласное правило «сначала спроси у ИИ, затем у коллег», которое тоже сокращает нагрузку работников на многих позициях.
www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
Всего года назад этот показатель составлял около 28%.
Компания также заявила, что ИИ повысил продуктивность инженеров на 30 процентных пунктов. И не только из-за автоматизации собственных задачек: например, среди сотрудников теперь существует негласное правило «сначала спроси у ИИ, затем у коллег», которое тоже сокращает нагрузку работников на многих позициях.
www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
1❤101😁55🔥26🤔7👍2
The Verge пишет, что GPT-5.2 должна выйти уже на следующей неделе, 9 декабря
Изначально стартап планировал дату выхода на конец месяца, но запуск ускорили из-за давления конкурентов.
Надеемся на что-то достойное🤔
Изначально стартап планировал дату выхода на конец месяца, но запуск ускорили из-за давления конкурентов.
Надеемся на что-то достойное
Please open Telegram to view this post
VIEW IN TELEGRAM
❤70👍31😁31🔥6⚡1
Data Secrets
Итак, что же пишут организаторы про соревнование ARC Prize в своем тех.отчете? ⚪️ Свой бенчмарк ARC-AGI (которому, кстати, в этом году пять лет) в самом начале отчета организаторы все еще называют непройденным, и говорят, что по итогам соревнования хотели…
ARC Prize назвали победителей этого года
На первом месте ребята с решением NVARC, они выбили 25.03%. NVARC – это ансамбль, собранный из других решений: объединение улучшенной версии подхода от команды «the ARChitects» (победители прошлого года) и компонентов на основе Tiny Recursive Model (TRM).
LLM-часть хорошо справляется с задачами, где нужны гибкие рассуждения и контекст, а TRM-часть дает базовую структурную устойчивость и решает задачи, где явно выгодно программное символьное мышление.
Сами TRM (Tiny Recursive Mode), к слову, взяли награду за лучшую статью, но в основном топе их нет. Наш разбор этой работы можно почитать здесь.
Далее по списку победителей у нас как раз the ARChitects с улучшенной архитектурой, MindsAI (фактические победители прошлого года, которых не наградили, потому что те не открыли код), Lonnie и Guillermo Barbadillo (второе место в прошлом году).
Короче, на манеже все те же. Два момента, которые хочется подчеркнуть относительно всех решений:
1. В этом году закрытые frontier LLM убежали вперед формальных победителей конкурса (ими могут стать только те, у кого открыт код). В прошлый раз почти все конкурсные решения били результаты ведущих на тот момент LLM, но в этом году роли сменились. У лидера конкурса результат 25%, а тем временем Gemini 3 Deep Think выбивает уже под 46%.
2. Зато решения сами по себе стали намного интереснее. Структура обновленного бенчмарка почти не позволяет решать задачи брутфорсом, как многие делали ранее, поэтому в этом году много идейных новшеств. Основной тренд – на refinement loop, то есть на цикличное улучшение предсказания модели. В индустриальных агентах сейчас все чаще используется то же самое.
arcprize.org/blog/arc-prize-2025-results-analysis
На первом месте ребята с решением NVARC, они выбили 25.03%. NVARC – это ансамбль, собранный из других решений: объединение улучшенной версии подхода от команды «the ARChitects» (победители прошлого года) и компонентов на основе Tiny Recursive Model (TRM).
LLM-часть хорошо справляется с задачами, где нужны гибкие рассуждения и контекст, а TRM-часть дает базовую структурную устойчивость и решает задачи, где явно выгодно программное символьное мышление.
Сами TRM (Tiny Recursive Mode), к слову, взяли награду за лучшую статью, но в основном топе их нет. Наш разбор этой работы можно почитать здесь.
Далее по списку победителей у нас как раз the ARChitects с улучшенной архитектурой, MindsAI (фактические победители прошлого года, которых не наградили, потому что те не открыли код), Lonnie и Guillermo Barbadillo (второе место в прошлом году).
Короче, на манеже все те же. Два момента, которые хочется подчеркнуть относительно всех решений:
1. В этом году закрытые frontier LLM убежали вперед формальных победителей конкурса (ими могут стать только те, у кого открыт код). В прошлый раз почти все конкурсные решения били результаты ведущих на тот момент LLM, но в этом году роли сменились. У лидера конкурса результат 25%, а тем временем Gemini 3 Deep Think выбивает уже под 46%.
2. Зато решения сами по себе стали намного интереснее. Структура обновленного бенчмарка почти не позволяет решать задачи брутфорсом, как многие делали ранее, поэтому в этом году много идейных новшеств. Основной тренд – на refinement loop, то есть на цикличное улучшение предсказания модели. В индустриальных агентах сейчас все чаще используется то же самое.
arcprize.org/blog/arc-prize-2025-results-analysis
❤24👍14🔥7😁1
Ян Лекун будет строить стартап в Европе, а не Америке
По его словам, Кремниевая долина перегрета и полностью «загипнотизирована» ИИ, поэтому альтернативные направления проще развивать вне долины, и в частности – в Париже.
Лекун сам из Франции и, в целом, всегда топил за европейский AI. Именно по его инициативе Meta когда-то открыла FAIR‑лабораторию в Париже, где позже родилась Llama.
Теперь, в своем стартапе, он говорит, что хочет «использовать недооценённый европейский талант, создав для него нужную исследовательскую среду».
По его словам, Кремниевая долина перегрета и полностью «загипнотизирована» ИИ, поэтому альтернативные направления проще развивать вне долины, и в частности – в Париже.
Лекун сам из Франции и, в целом, всегда топил за европейский AI. Именно по его инициативе Meta когда-то открыла FAIR‑лабораторию в Париже, где позже родилась Llama.
Теперь, в своем стартапе, он говорит, что хочет «использовать недооценённый европейский талант, создав для него нужную исследовательскую среду».
❤155😁67👍32 16🔥8🎄4🗿4 2👏1🤯1