This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кому обычные визуализации работы трансформера уже приелись: ребята из alphaXiv сделали красивейший интерактивный RL Visualizer
На примере игрушечной задачи прохождения лабиринта можно отслеживать, как шаг за шагом агенты учатся с помощью обучения с подкреплением, и сравнивать разные алгоритмы.
Например, можно посмотреть, в чем практическая разница между PPO и GRPO.
Полезная штука, чтобы освежить знания или интуитивное понимание RL. А еще это красиво.
www.alphaxiv.org/labs/rl-playground
На примере игрушечной задачи прохождения лабиринта можно отслеживать, как шаг за шагом агенты учатся с помощью обучения с подкреплением, и сравнивать разные алгоритмы.
Например, можно посмотреть, в чем практическая разница между PPO и GRPO.
Полезная штука, чтобы освежить знания или интуитивное понимание RL. А еще это красиво.
www.alphaxiv.org/labs/rl-playground
🔥102👍28❤16😁1👾1
Исследователи Яндекса представили RATE — новую систему оценки нейропереводов
RATE (Refined Assessment for Translation Evaluation) опирается на критерии естественности речи и, по сути, меняет оценку с «Переведено верно» на «Переведено по-человечески».
Например, если система перевела «Sorry, my bad» как «Приношу извинения, это моя вина» вместо «Извини, ошибся» — RATE заметит, что перевод звучит неестественно, потому что сеть выбрала слишком официальный тон. Обычно существующие системы такие детали игнорируют, и поэтому качество перевода сложно улучшать.
RATE оценивает перевод по трём главным для пользователя критериям: точность — верно ли передан смысл, естественность языка и соответствие стилю оригинала.
Благодаря такой детализации RATE выявляет в семь раз больше ошибок, чем другие методы оценки. При этом система не только отмечает наличие ошибки, но и оценивает её значимость.
В перспективе это очень весомая работа, потому что на основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели.
Статья о RATE была представлена на большой международной конференции EMNLP 2025. Почитать статью полностью можно здесь.
RATE (Refined Assessment for Translation Evaluation) опирается на критерии естественности речи и, по сути, меняет оценку с «Переведено верно» на «Переведено по-человечески».
Например, если система перевела «Sorry, my bad» как «Приношу извинения, это моя вина» вместо «Извини, ошибся» — RATE заметит, что перевод звучит неестественно, потому что сеть выбрала слишком официальный тон. Обычно существующие системы такие детали игнорируют, и поэтому качество перевода сложно улучшать.
RATE оценивает перевод по трём главным для пользователя критериям: точность — верно ли передан смысл, естественность языка и соответствие стилю оригинала.
Благодаря такой детализации RATE выявляет в семь раз больше ошибок, чем другие методы оценки. При этом система не только отмечает наличие ошибки, но и оценивает её значимость.
В перспективе это очень весомая работа, потому что на основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели.
Статья о RATE была представлена на большой международной конференции EMNLP 2025. Почитать статью полностью можно здесь.
24👍130🔥44❤25🗿8🤯1
Media is too big
VIEW IN TELEGRAM
Google продолжает генерировать занятные продукты: они запустили Workspace Studio – новый инструмент для быстрого создания агентов
Там можно будет проектировать, управлять и шарить ИИ-агентов вообще без написания кода. По сути это надстройка над Workspace: платформа рассчитана на агентов, которые будут работать в Gmail, Docs, Sheets, Drive, Chat, Slides, Meet и тд
Например, можно сделать:
– Агента, который постоянно будет мониторить вашу почту и собирать все рабочие письма в отдельную папку.
– Агента, который раз в месяц или по триггеру будет собирать метрики из нужных таблиц и делать по ним презентацию.
– Агента, который делает саммари по встречам в Meet и сразу ставит задачи на основе action items.
Google пишут, что в альфа‑тесте за 30 дней через агентов Workspace Studio уже прокрутили более 20 млн задач, от простых напоминаний до сложных процессов вроде юридического триажа и обработки клиентских обращений.
Пока продукт развернули только для бизнес-клиентов Workspace, но в январе обещают выпустить для всех
workspace.google.com/studio/
Там можно будет проектировать, управлять и шарить ИИ-агентов вообще без написания кода. По сути это надстройка над Workspace: платформа рассчитана на агентов, которые будут работать в Gmail, Docs, Sheets, Drive, Chat, Slides, Meet и тд
Например, можно сделать:
– Агента, который постоянно будет мониторить вашу почту и собирать все рабочие письма в отдельную папку.
– Агента, который раз в месяц или по триггеру будет собирать метрики из нужных таблиц и делать по ним презентацию.
– Агента, который делает саммари по встречам в Meet и сразу ставит задачи на основе action items.
Google пишут, что в альфа‑тесте за 30 дней через агентов Workspace Studio уже прокрутили более 20 млн задач, от простых напоминаний до сложных процессов вроде юридического триажа и обработки клиентских обращений.
Пока продукт развернули только для бизнес-клиентов Workspace, но в январе обещают выпустить для всех
workspace.google.com/studio/
🔥81❤15😎7😁6👍5👏1
Сэм Альтман планирует создать конкурента SpaceX
По данным WSJ, он пытался собрать средства, чтобы либо купить, либо войти в партнерство с какой-нибудь ракетной компанией. В первую очередь он рассматривал Stoke Space с покупкой контрольного пакета акций.
Целью было создать игрока, сопоставимого со SpaceX Илона Маска, и параллельно заложить основу для космической инфраструктуры под проекты OpenAI (сейчас модно говорить о переносе датацентров на орбиту).
Переговоры активно шли всю осень, но сейчас, как утверждают журналисты, приостановились.
Лицо Маска представили?🔵
По данным WSJ, он пытался собрать средства, чтобы либо купить, либо войти в партнерство с какой-нибудь ракетной компанией. В первую очередь он рассматривал Stoke Space с покупкой контрольного пакета акций.
Целью было создать игрока, сопоставимого со SpaceX Илона Маска, и параллельно заложить основу для космической инфраструктуры под проекты OpenAI (сейчас модно говорить о переносе датацентров на орбиту).
Переговоры активно шли всю осень, но сейчас, как утверждают журналисты, приостановились.
Лицо Маска представили?
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁176 41👍13 13❤5🔥5🗿2🐳1
Data Secrets
Гуманоид Atlas от Boston Dynamics на новом демо просто поразил всех плавностью и точностью движений Такое чувство, что он вовсе и не железный. Деталей обучения стартап не раскрывает, но верхнеуровнево пайплайн трейна примерно такой: 1. Сбор данных человеческих…
This media is not supported in your browser
VIEW IN TELEGRAM
Tesla и Илон Маск похвастались, что Optimus научился бегать
Выглядит действительно достаточно круто, конечно. Правда, в том же Boston Dynamics робота научили бегать и делать колесо еще 10 месяцев назад✌️
Выглядит действительно достаточно круто, конечно. Правда, в том же Boston Dynamics робота научили бегать и делать колесо еще 10 месяцев назад
Please open Telegram to view this post
VIEW IN TELEGRAM
😁129 36🔥18 12👍7🤔5❤4🗿2🐳1 1
Google выпустили Gemini 3 Deep Think, и это поразительная модель
Она выбивает 41% на HLE и 31.1% на ARC-AGI-2 (без использования инструментов). Это заметно лучше Gemini 3 Pro, а остальные модели вообще остаются далеко позади.
Модель использует «продвинутые параллельные рассуждения для одновременного изучения нескольких гипотез», то есть она задействует сразу несколько потоков параллельных рассуждений и каким-то образом объединяет результаты.
Джефф Дин написал, что эта модель «делает доступной технологию, которая выиграла золотые медали IMO и ICPC». Но обратите внимание, что это НЕ та же самая модель. Она просто построена на основе того варианта Gemini-2.5 Deep Think, которая выигрывала олимпиады (имеется в виду, использует ту же идею с параллельными потоками ризонинга), то есть Gemini 3 Deep Think может оказаться еще мощнее.
Пока модель доступна только подписчикам Ultra
blog.google/products/gemini/gemini-3-deep-think/
Она выбивает 41% на HLE и 31.1% на ARC-AGI-2 (без использования инструментов). Это заметно лучше Gemini 3 Pro, а остальные модели вообще остаются далеко позади.
Модель использует «продвинутые параллельные рассуждения для одновременного изучения нескольких гипотез», то есть она задействует сразу несколько потоков параллельных рассуждений и каким-то образом объединяет результаты.
Джефф Дин написал, что эта модель «делает доступной технологию, которая выиграла золотые медали IMO и ICPC». Но обратите внимание, что это НЕ та же самая модель. Она просто построена на основе того варианта Gemini-2.5 Deep Think, которая выигрывала олимпиады (имеется в виду, использует ту же идею с параллельными потоками ризонинга), то есть Gemini 3 Deep Think может оказаться еще мощнее.
Пока модель доступна только подписчикам Ultra
blog.google/products/gemini/gemini-3-deep-think/
🔥146❤31👍12 10 4🗿2🤝1
MWS AI выпустила корпоративную платформу MWS AI AGENTS PLATFORM для создания ИИ-агентов
Все как мы любим: можно создать агента на базе LLM в приятном визуальном интерфейсе, не написав ни одной строчки кода.
Количество возможных бизнес-сценариев огромно: построить можно даже мультимодальные и мультиагентные процессы. Агенты смогут распределять роли и функции, передавать друг другу результаты и проверять их.
Также на платформе есть уже готовые решения «из коробки», а еще инструменты для разметки и подготовки данных. А если с внедрением решения понадобится помощь, то MWS AI предоставят консультационную поддержку, обучение команд и экспертное сопровождение.
Кстати, в разработку платформы компания вложила 4 миллиарда рублей. Система разрабатывалась специально как enterprise-ready решение, так что надежность и устойчивость — на высоте.
Все как мы любим: можно создать агента на базе LLM в приятном визуальном интерфейсе, не написав ни одной строчки кода.
Количество возможных бизнес-сценариев огромно: построить можно даже мультимодальные и мультиагентные процессы. Агенты смогут распределять роли и функции, передавать друг другу результаты и проверять их.
Также на платформе есть уже готовые решения «из коробки», а еще инструменты для разметки и подготовки данных. А если с внедрением решения понадобится помощь, то MWS AI предоставят консультационную поддержку, обучение команд и экспертное сопровождение.
Кстати, в разработку платформы компания вложила 4 миллиарда рублей. Система разрабатывалась специально как enterprise-ready решение, так что надежность и устойчивость — на высоте.
😁28🗿15❤11👌6👍5 4⚡3🤯2🤨1🎄1
У Apple что-то пошло не по плану: за последние 72 часа из компании ушли четыре главы основных подразделений, включая директора по ИИ
➖ Джон Джаннандреа, глава AI/ML, уходит на пенсию из-за тупиковой ситуации с Siri и AI-функциями
➖ Алан Дай, глава UI-дизайна, переходит в Meta для руководства новой дизайн-студией.
С дизайном в Apple вообще все сложно после ухода Джони Айва к Альтману. Известно, что за последние пару месяцев OpenAI захантила из Apple порядка 40 сотрудников из отделов дизайна, hardware и wearables. Напоминаем, что сейчас Альтман совместно с Айвом разрабатывают семейство ИИ-устройств без экранов – анти-IPhone.
Влияет и конкуренция с Meta. Ранее Цукер забрал из Apple главу foundation models, а сейчас забирает у компании большую часть рынка носимых устройств со своими Ray-Ban Meta. Apple пытаются переключиться с Vision Pro на такие же ИИ-очки, но там 73% рынка уже контролирует Meta.
➖ Также ушли в отставку Кейт Адамс, старший вице-президент и генеральный советник, и Лиза Джексон, вице-президент по экологии, политике и социальным инициативам.
Короче, F
С дизайном в Apple вообще все сложно после ухода Джони Айва к Альтману. Известно, что за последние пару месяцев OpenAI захантила из Apple порядка 40 сотрудников из отделов дизайна, hardware и wearables. Напоминаем, что сейчас Альтман совместно с Айвом разрабатывают семейство ИИ-устройств без экранов – анти-IPhone.
Влияет и конкуренция с Meta. Ранее Цукер забрал из Apple главу foundation models, а сейчас забирает у компании большую часть рынка носимых устройств со своими Ray-Ban Meta. Apple пытаются переключиться с Vision Pro на такие же ИИ-очки, но там 73% рынка уже контролирует Meta.
Короче, F
Please open Telegram to view this post
VIEW IN TELEGRAM
1 158❤32🫡26 17😁5👍3🍾3🔥2🤔2🗿2🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
Это они еще про грамоты за русского медвежонка не слышали
1😁267😎30🔥15❤8🗿1
На AlphaArena заметили лидирующую mystery model. Илон Маск подтвердил, что это тестовая версия Grok 4.20 🫠
AlphaArena – это та самая площадка, где модели соревнуются в реальном трейдинге. Они получают капитал в 10000 долларов и торгуют криптовалютными контрактами, акциями и тд.
В основном модели, конечно же, уходят в минус. Но недавно на арене заметили новую модель под кодовым названием «mystery model». Она заметно выбилась вперед относительно соперников, торговала смело и фиксировала прибыль точно на пиках.
Оказалось, что это был новый Grok 4.20 (да, нолик в конце не случайный🔵 ). Это подтвердил Илон Маск в X.
Когда релиз – пока не говорят. Но был бы неплохой подарок от xAI на Новый Год
AlphaArena – это та самая площадка, где модели соревнуются в реальном трейдинге. Они получают капитал в 10000 долларов и торгуют криптовалютными контрактами, акциями и тд.
В основном модели, конечно же, уходят в минус. Но недавно на арене заметили новую модель под кодовым названием «mystery model». Она заметно выбилась вперед относительно соперников, торговала смело и фиксировала прибыль точно на пиках.
Оказалось, что это был новый Grok 4.20 (да, нолик в конце не случайный
Когда релиз – пока не говорят. Но был бы неплохой подарок от xAI на Новый Год
Please open Telegram to view this post
VIEW IN TELEGRAM
😁100☃20❤19 10🔥5👍2🗿2
С чего начать строить свой стартап, если есть крутая идея?
В мире куча талантливых разработчиков, которые могли бы построить большие успешные стартапы. Но, к сожалению, большинство из них остановились из-за "У меня недостаточно денег", "Я недостаточно опытен" или "А вдруг не получится".
Если не хочешь так же и искренне веришь в свою идею – пора начинать двигаться вперед, несмотря на страхи. Тем более, что сейчас есть море возможностей развить свой потенциал. Например, Молодежные акселераторы от Сбера:
✅ Если сомневаешься в себе – рядом будет наставник с опытом в предпринимательстве.
✅ Если не хватает знаний – можно пройти обучение и быстро тестировать гипотезы с помощью ИИ.
✅ Если нет капитала – дадут доступ к инвесторам.
В итоге ты сможешь превратить свою идею в рабочий MVP и найдешь первых клиентов или инвесторов. Нужно только начать по ссылке!
В мире куча талантливых разработчиков, которые могли бы построить большие успешные стартапы. Но, к сожалению, большинство из них остановились из-за "У меня недостаточно денег", "Я недостаточно опытен" или "А вдруг не получится".
Если не хочешь так же и искренне веришь в свою идею – пора начинать двигаться вперед, несмотря на страхи. Тем более, что сейчас есть море возможностей развить свой потенциал. Например, Молодежные акселераторы от Сбера:
✅ Если сомневаешься в себе – рядом будет наставник с опытом в предпринимательстве.
✅ Если не хватает знаний – можно пройти обучение и быстро тестировать гипотезы с помощью ИИ.
✅ Если нет капитала – дадут доступ к инвесторам.
В итоге ты сможешь превратить свою идею в рабочий MVP и найдешь первых клиентов или инвесторов. Нужно только начать по ссылке!
🗿15❤6😁5🦄2🔥1
Anthropic утверждают, что их сотрудники делегируют Claude уже 60% ежедневных задач
Всего года назад этот показатель составлял около 28%.
Компания также заявила, что ИИ повысил продуктивность инженеров на 30 процентных пунктов. И не только из-за автоматизации собственных задачек: например, среди сотрудников теперь существует негласное правило «сначала спроси у ИИ, затем у коллег», которое тоже сокращает нагрузку работников на многих позициях.
www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
Всего года назад этот показатель составлял около 28%.
Компания также заявила, что ИИ повысил продуктивность инженеров на 30 процентных пунктов. И не только из-за автоматизации собственных задачек: например, среди сотрудников теперь существует негласное правило «сначала спроси у ИИ, затем у коллег», которое тоже сокращает нагрузку работников на многих позициях.
www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
1❤107😁58🔥26🤔7👍2
The Verge пишет, что GPT-5.2 должна выйти уже на следующей неделе, 9 декабря
Изначально стартап планировал дату выхода на конец месяца, но запуск ускорили из-за давления конкурентов.
Надеемся на что-то достойное🤔
Изначально стартап планировал дату выхода на конец месяца, но запуск ускорили из-за давления конкурентов.
Надеемся на что-то достойное
Please open Telegram to view this post
VIEW IN TELEGRAM
❤75👍31😁31🔥6⚡1
Data Secrets
Итак, что же пишут организаторы про соревнование ARC Prize в своем тех.отчете? ⚪️ Свой бенчмарк ARC-AGI (которому, кстати, в этом году пять лет) в самом начале отчета организаторы все еще называют непройденным, и говорят, что по итогам соревнования хотели…
ARC Prize назвали победителей этого года
На первом месте ребята с решением NVARC, они выбили 25.03%. NVARC – это ансамбль, собранный из других решений: объединение улучшенной версии подхода от команды «the ARChitects» (победители прошлого года) и компонентов на основе Tiny Recursive Model (TRM).
LLM-часть хорошо справляется с задачами, где нужны гибкие рассуждения и контекст, а TRM-часть дает базовую структурную устойчивость и решает задачи, где явно выгодно программное символьное мышление.
Сами TRM (Tiny Recursive Mode), к слову, взяли награду за лучшую статью, но в основном топе их нет. Наш разбор этой работы можно почитать здесь.
Далее по списку победителей у нас как раз the ARChitects с улучшенной архитектурой, MindsAI (фактические победители прошлого года, которых не наградили, потому что те не открыли код), Lonnie и Guillermo Barbadillo (второе место в прошлом году).
Короче, на манеже все те же. Два момента, которые хочется подчеркнуть относительно всех решений:
1. В этом году закрытые frontier LLM убежали вперед формальных победителей конкурса (ими могут стать только те, у кого открыт код). В прошлый раз почти все конкурсные решения били результаты ведущих на тот момент LLM, но в этом году роли сменились. У лидера конкурса результат 25%, а тем временем Gemini 3 Deep Think выбивает уже под 46%.
2. Зато решения сами по себе стали намного интереснее. Структура обновленного бенчмарка почти не позволяет решать задачи брутфорсом, как многие делали ранее, поэтому в этом году много идейных новшеств. Основной тренд – на refinement loop, то есть на цикличное улучшение предсказания модели. В индустриальных агентах сейчас все чаще используется то же самое.
arcprize.org/blog/arc-prize-2025-results-analysis
На первом месте ребята с решением NVARC, они выбили 25.03%. NVARC – это ансамбль, собранный из других решений: объединение улучшенной версии подхода от команды «the ARChitects» (победители прошлого года) и компонентов на основе Tiny Recursive Model (TRM).
LLM-часть хорошо справляется с задачами, где нужны гибкие рассуждения и контекст, а TRM-часть дает базовую структурную устойчивость и решает задачи, где явно выгодно программное символьное мышление.
Сами TRM (Tiny Recursive Mode), к слову, взяли награду за лучшую статью, но в основном топе их нет. Наш разбор этой работы можно почитать здесь.
Далее по списку победителей у нас как раз the ARChitects с улучшенной архитектурой, MindsAI (фактические победители прошлого года, которых не наградили, потому что те не открыли код), Lonnie и Guillermo Barbadillo (второе место в прошлом году).
Короче, на манеже все те же. Два момента, которые хочется подчеркнуть относительно всех решений:
1. В этом году закрытые frontier LLM убежали вперед формальных победителей конкурса (ими могут стать только те, у кого открыт код). В прошлый раз почти все конкурсные решения били результаты ведущих на тот момент LLM, но в этом году роли сменились. У лидера конкурса результат 25%, а тем временем Gemini 3 Deep Think выбивает уже под 46%.
2. Зато решения сами по себе стали намного интереснее. Структура обновленного бенчмарка почти не позволяет решать задачи брутфорсом, как многие делали ранее, поэтому в этом году много идейных новшеств. Основной тренд – на refinement loop, то есть на цикличное улучшение предсказания модели. В индустриальных агентах сейчас все чаще используется то же самое.
arcprize.org/blog/arc-prize-2025-results-analysis
❤31👍16🔥8😁1
Ян Лекун будет строить стартап в Европе, а не Америке
По его словам, Кремниевая долина перегрета и полностью «загипнотизирована» ИИ, поэтому альтернативные направления проще развивать вне долины, и в частности – в Париже.
Лекун сам из Франции и, в целом, всегда топил за европейский AI. Именно по его инициативе Meta когда-то открыла FAIR‑лабораторию в Париже, где позже родилась Llama.
Теперь, в своем стартапе, он говорит, что хочет «использовать недооценённый европейский талант, создав для него нужную исследовательскую среду».
По его словам, Кремниевая долина перегрета и полностью «загипнотизирована» ИИ, поэтому альтернативные направления проще развивать вне долины, и в частности – в Париже.
Лекун сам из Франции и, в целом, всегда топил за европейский AI. Именно по его инициативе Meta когда-то открыла FAIR‑лабораторию в Париже, где позже родилась Llama.
Теперь, в своем стартапе, он говорит, что хочет «использовать недооценённый европейский талант, создав для него нужную исследовательскую среду».
1❤194😁84👍42 16🔥11 5🎄4🗿4👏1🤯1
Media is too big
VIEW IN TELEGRAM
Занятное интервью вышло у Демиса Хассабиса с изданием Axios
Посмотреть полностью можно здесь. Особенно понравился момент, где Демиса попросили без преувеличений и максимально честно рассказать, что, по его мнению, будет происходить с ИИ в ближайшие 12 месяцев. Ученый ответил вот так:
1. Конвергенция модальностей. Например, Gemini мультимодальная, и благодаря этому можно воспроизводить множество интересных результатов. Хороший кейс – это новая Nano Banana Pro, которая действительно хорошо понимает изображения, стили, инфографику и тд (благодаря, собственно, Gemini). Следующий шаг – это объединение видео с языковыми моделями, и в ближайший год мы увидим в этой области большой прогресс.
2. Модели мира типа Genie. В ближайший год они станут намного лучше.
3. И, конечно, агенты. Сейчас о них уже много говорят, но они пока недостаточно надежны, чтобы выполнять задачи от начала до конца. Но Демис уверен, что в течение года это изменится, и агенты уже будут неотъемлемой составляющей жизни.
Что касается AGI, Хассабис ставит на 5-10 лет. А сейчас мы приближаемся к моменту, которые многие называют «радикальным изобилием» – когда множество, если не большинство, человеческих задач будет постоянно решаться с помощью ИИ.
Еще раз ссылка на полное интервью
Посмотреть полностью можно здесь. Особенно понравился момент, где Демиса попросили без преувеличений и максимально честно рассказать, что, по его мнению, будет происходить с ИИ в ближайшие 12 месяцев. Ученый ответил вот так:
1. Конвергенция модальностей. Например, Gemini мультимодальная, и благодаря этому можно воспроизводить множество интересных результатов. Хороший кейс – это новая Nano Banana Pro, которая действительно хорошо понимает изображения, стили, инфографику и тд (благодаря, собственно, Gemini). Следующий шаг – это объединение видео с языковыми моделями, и в ближайший год мы увидим в этой области большой прогресс.
2. Модели мира типа Genie. В ближайший год они станут намного лучше.
3. И, конечно, агенты. Сейчас о них уже много говорят, но они пока недостаточно надежны, чтобы выполнять задачи от начала до конца. Но Демис уверен, что в течение года это изменится, и агенты уже будут неотъемлемой составляющей жизни.
Что касается AGI, Хассабис ставит на 5-10 лет. А сейчас мы приближаемся к моменту, которые многие называют «радикальным изобилием» – когда множество, если не большинство, человеческих задач будет постоянно решаться с помощью ИИ.
Еще раз ссылка на полное интервью
❤41👍24🔥12😁2
