NEW BOT Телеграм, страница

Для тех, кому обычные визуализации работы трансформера уже приелись: ребята из alphaXiv сделали красивейший интерактивный RL Visualizer

На примере игрушечной задачи прохождения лабиринта можно отслеживать, как шаг за шагом агенты учатся с помощью обучения с подкреплением, и сравнивать разные алгоритмы.

Например, можно посмотреть, в чем практическая разница между PPO и GRPO.

Полезная штука, чтобы освежить знания или интуитивное понимание RL. А еще это красиво.

www.alphaxiv.org/labs/rl-playground

🔥105👍30❤16😁2👾1

20.4K views10:01

Data Secrets

Исследователи Яндекса представили RATE — новую систему оценки нейропереводов

RATE (Refined Assessment for Translation Evaluation) опирается на критерии естественности речи и, по сути, меняет оценку с «Переведено верно» на «Переведено по-человечески».

Например, если система перевела «Sorry, my bad» как «Приношу извинения, это моя вина» вместо «Извини, ошибся» — RATE заметит, что перевод звучит неестественно, потому что сеть выбрала слишком официальный тон. Обычно существующие системы такие детали игнорируют, и поэтому качество перевода сложно улучшать.

RATE оценивает перевод по трём главным для пользователя критериям: точность — верно ли передан смысл, естественность языка и соответствие стилю оригинала.

Благодаря такой детализации RATE выявляет в семь раз больше ошибок, чем другие методы оценки. При этом система не только отмечает наличие ошибки, но и оценивает её значимость.

В перспективе это очень весомая работа, потому что на основе этой метрики разработчики смогут целенаправленно совершенствовать существующие модели.

Статья о RATE была представлена на большой международной конференции EMNLP 2025. Почитать статью полностью можно здесь.

24👍145🔥46❤26🗿8🤯1

18.2K views11:58

Google продолжает генерировать занятные продукты: они запустили Workspace Studio – новый инструмент для быстрого создания агентов

Там можно будет проектировать, управлять и шарить ИИ-агентов вообще без написания кода. По сути это надстройка над Workspace: платформа рассчитана на агентов, которые будут работать в Gmail, Docs, Sheets, Drive, Chat, Slides, Meet и тд

Например, можно сделать:

– Агента, который постоянно будет мониторить вашу почту и собирать все рабочие письма в отдельную папку.

– Агента, который раз в месяц или по триггеру будет собирать метрики из нужных таблиц и делать по ним презентацию.

– Агента, который делает саммари по встречам в Meet и сразу ставит задачи на основе action items.

Google пишут, что в альфа‑тесте за 30 дней через агентов Workspace Studio уже прокрутили более 20 млн задач, от простых напоминаний до сложных процессов вроде юридического триажа и обработки клиентских обращений.

Пока продукт развернули только для бизнес-клиентов Workspace, но в январе обещают выпустить для всех

workspace.google.com/studio/

🔥88❤16😎7👍6😁6👏2🐳1

19.5K views13:03

Data Secrets

Сэм Альтман планирует создать конкурента SpaceX

По данным WSJ, он пытался собрать средства, чтобы либо купить, либо войти в партнерство с какой-нибудь ракетной компанией. В первую очередь он рассматривал Stoke Space с покупкой контрольного пакета акций.

Целью было создать игрока, сопоставимого со SpaceX Илона Маска, и параллельно заложить основу для космической инфраструктуры под проекты OpenAI (сейчас модно говорить о переносе датацентров на орбиту).

Переговоры активно шли всю осень, но сейчас, как утверждают журналисты, приостановились.

Лицо Маска представили? 🔵

Please open Telegram to view this post

VIEW IN TELEGRAM

2😁19242👍1614❤5🔥5🗿3🐳2

19.2K views14:41

Data Secrets

Гуманоид Atlas от Boston Dynamics на новом демо просто поразил всех плавностью и точностью движений Такое чувство, что он вовсе и не железный. Деталей обучения стартап не раскрывает, но верхнеуровнево пайплайн трейна примерно такой: 1. Сбор данных человеческих…

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

Tesla и Илон Маск похвастались, что Optimus научился бегать

Выглядит действительно достаточно круто, конечно. Правда, в том же Boston Dynamics робота научили бегать и делать колесо еще 10 месяцев назад ✌️

Please open Telegram to view this post

VIEW IN TELEGRAM

😁13938🔥1912👍8🤔5❤4🗿3🐳21

19.2K viewsedited 18:24

Data Secrets

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Google выпустили Gemini 3 Deep Think, и это поразительная модель

Она выбивает 41% на HLE и 31.1% на ARC-AGI-2 (без использования инструментов). Это заметно лучше Gemini 3 Pro, а остальные модели вообще остаются далеко позади.

Модель использует «продвинутые параллельные рассуждения для одновременного изучения нескольких гипотез», то есть она задействует сразу несколько потоков параллельных рассуждений и каким-то образом объединяет результаты.

Джефф Дин написал, что эта модель «делает доступной технологию, которая выиграла золотые медали IMO и ICPC». Но обратите внимание, что это НЕ та же самая модель. Она просто построена на основе того варианта Gemini-2.5 Deep Think, которая выигрывала олимпиады (имеется в виду, использует ту же идею с параллельными потоками ризонинга), то есть Gemini 3 Deep Think может оказаться еще мощнее.

Пока модель доступна только подписчикам Ultra

blog.google/products/gemini/gemini-3-deep-think/

🔥152❤33👍14106🤝2🗿2

26.7K views06:38

Data Secrets

MWS AI выпустила корпоративную платформу MWS AI AGENTS PLATFORM для создания ИИ-агентов

Все как мы любим: можно создать агента на базе LLM в приятном визуальном интерфейсе, не написав ни одной строчки кода.

Количество возможных бизнес-сценариев огромно: построить можно даже мультимодальные и мультиагентные процессы. Агенты смогут распределять роли и функции, передавать друг другу результаты и проверять их.

Также на платформе есть уже готовые решения «из коробки», а еще инструменты для разметки и подготовки данных. А если с внедрением решения понадобится помощь, то MWS AI предоставят консультационную поддержку, обучение команд и экспертное сопровождение.

Кстати, в разработку платформы компания вложила 4 миллиарда рублей. Система разрабатывалась специально как enterprise-ready решение, так что надежность и устойчивость — на высоте.

😁37🗿17❤12👌7👍65⚡4🤯2🤨1🎄1

19.5K views08:32

Data Secrets

У Apple что-то пошло не по плану: за последние 72 часа из компании ушли четыре главы основных подразделений, включая директора по ИИ

➖Джон Джаннандреа, глава AI/ML, уходит на пенсию из-за тупиковой ситуации с Siri и AI-функциями

➖Алан Дай, глава UI-дизайна, переходит в Meta для руководства новой дизайн-студией.

С дизайном в Apple вообще все сложно после ухода Джони Айва к Альтману. Известно, что за последние пару месяцев OpenAI захантила из Apple порядка 40 сотрудников из отделов дизайна, hardware и wearables. Напоминаем, что сейчас Альтман совместно с Айвом разрабатывают семейство ИИ-устройств без экранов – анти-IPhone.

Влияет и конкуренция с Meta. Ранее Цукер забрал из Apple главу foundation models, а сейчас забирает у компании большую часть рынка носимых устройств со своими Ray-Ban Meta. Apple пытаются переключиться с Vision Pro на такие же ИИ-очки, но там 73% рынка уже контролирует Meta.

➖ Также ушли в отставку Кейт Адамс, старший вице-президент и генеральный советник, и Лиза Джексон, вице-президент по экологии, политике и социальным инициативам.

Короче, F

Please open Telegram to view this post

VIEW IN TELEGRAM

1168❤34🫡3320😁6👍4🤔3🍾3🗿3🔥2🎄1

20.9K views10:03

Data Secrets

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Это они еще про грамоты за русского медвежонка не слышали

1😁300😎33🔥16❤9👍2🗿1

22.4K views12:01

Data Secrets

На AlphaArena заметили лидирующую mystery model. Илон Маск подтвердил, что это тестовая версия Grok 4.20 🫠

AlphaArena – это та самая площадка, где модели соревнуются в реальном трейдинге. Они получают капитал в 10000 долларов и торгуют криптовалютными контрактами, акциями и тд.

В основном модели, конечно же, уходят в минус. Но недавно на арене заметили новую модель под кодовым названием «mystery model». Она заметно выбилась вперед относительно соперников, торговала смело и фиксировала прибыль точно на пиках.

Оказалось, что это был новый Grok 4.20 (да, нолик в конце не случайный 🔵). Это подтвердил Илон Маск в X.

Когда релиз – пока не говорят. Но был бы неплохой подарок от xAI на Новый Год

Please open Telegram to view this post

VIEW IN TELEGRAM

😁107☃23❤2010🔥5👍4🗿2

20.6K viewsedited 13:47

Data Secrets

Anthropic утверждают, что их сотрудники делегируют Claude уже 60% ежедневных задач

Всего года назад этот показатель составлял около 28%.

Компания также заявила, что ИИ повысил продуктивность инженеров на 30 процентных пунктов. И не только из-за автоматизации собственных задачек: например, среди сотрудников теперь существует негласное правило «сначала спроси у ИИ, затем у коллег», которое тоже сокращает нагрузку работников на многих позициях.

www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic

1❤117😁62🔥26🤔7👍4

22.6K views16:33

Data Secrets

The Verge пишет, что GPT-5.2 должна выйти уже на следующей неделе, 9 декабря

Изначально стартап планировал дату выхода на конец месяца, но запуск ускорили из-за давления конкурентов.

Надеемся на что-то достойное 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

❤80👍36😁35🔥6⚡1

19.8K viewsedited 08:12

Data Secrets

Итак, что же пишут организаторы про соревнование ARC Prize в своем тех.отчете? ⚪️ Свой бенчмарк ARC-AGI (которому, кстати, в этом году пять лет) в самом начале отчета организаторы все еще называют непройденным, и говорят, что по итогам соревнования хотели…

ARC Prize назвали победителей этого года

На первом месте ребята с решением NVARC, они выбили 25.03%. NVARC – это ансамбль, собранный из других решений: объединение улучшенной версии подхода от команды «the ARChitects» (победители прошлого года) и компонентов на основе Tiny Recursive Model (TRM).

LLM-часть хорошо справляется с задачами, где нужны гибкие рассуждения и контекст, а TRM-часть дает базовую структурную устойчивость и решает задачи, где явно выгодно программное символьное мышление.

Сами TRM (Tiny Recursive Mode), к слову, взяли награду за лучшую статью, но в основном топе их нет. Наш разбор этой работы можно почитать здесь.

Далее по списку победителей у нас как раз the ARChitects с улучшенной архитектурой, MindsAI (фактические победители прошлого года, которых не наградили, потому что те не открыли код), Lonnie и Guillermo Barbadillo (второе место в прошлом году).

Короче, на манеже все те же. Два момента, которые хочется подчеркнуть относительно всех решений:

1. В этом году закрытые frontier LLM убежали вперед формальных победителей конкурса (ими могут стать только те, у кого открыт код). В прошлый раз почти все конкурсные решения били результаты ведущих на тот момент LLM, но в этом году роли сменились. У лидера конкурса результат 25%, а тем временем Gemini 3 Deep Think выбивает уже под 46%.

2. Зато решения сами по себе стали намного интереснее. Структура обновленного бенчмарка почти не позволяет решать задачи брутфорсом, как многие делали ранее, поэтому в этом году много идейных новшеств. Основной тренд – на refinement loop, то есть на цикличное улучшение предсказания модели. В индустриальных агентах сейчас все чаще используется то же самое.

arcprize.org/blog/arc-prize-2025-results-analysis

❤34👍20🔥8😁1🗿1

20.3K views13:10

Data Secrets

Ян Лекун будет строить стартап в Европе, а не Америке

По его словам, Кремниевая долина перегрета и полностью «загипнотизирована» ИИ, поэтому альтернативные направления проще развивать вне долины, и в частности – в Париже.

Лекун сам из Франции и, в целом, всегда топил за европейский AI. Именно по его инициативе Meta когда-то открыла FAIR‑лабораторию в Париже, где позже родилась Llama.

Теперь, в своем стартапе, он говорит, что хочет «использовать недооценённый европейский талант, создав для него нужную исследовательскую среду».

1❤217😁96👍5319🔥138🎄5🗿5👏1🤯1

21.8K views16:06

Data Secrets

Channel photo updated

09:43

Занятное интервью вышло у Демиса Хассабиса с изданием Axios

Посмотреть полностью можно здесь. Особенно понравился момент, где Демиса попросили без преувеличений и максимально честно рассказать, что, по его мнению, будет происходить с ИИ в ближайшие 12 месяцев. Ученый ответил вот так:

1. Конвергенция модальностей. Например, Gemini мультимодальная, и благодаря этому можно воспроизводить множество интересных результатов. Хороший кейс – это новая Nano Banana Pro, которая действительно хорошо понимает изображения, стили, инфографику и тд (благодаря, собственно, Gemini). Следующий шаг – это объединение видео с языковыми моделями, и в ближайший год мы увидим в этой области большой прогресс.

2. Модели мира типа Genie. В ближайший год они станут намного лучше.

3. И, конечно, агенты. Сейчас о них уже много говорят, но они пока недостаточно надежны, чтобы выполнять задачи от начала до конца. Но Демис уверен, что в течение года это изменится, и агенты уже будут неотъемлемой составляющей жизни.

Что касается AGI, Хассабис ставит на 5-10 лет. А сейчас мы приближаемся к моменту, которые многие называют «радикальным изобилием» – когда множество, если не большинство, человеческих задач будет постоянно решаться с помощью ИИ.

Еще раз ссылка на полное интервью

❤52👍34🔥14😁4

21K views13:09

Data Secrets

Андрей Карпаты снова выдал красивую базу

Он говорит, что нельзя забывать, что LLM – симуляторы, а не самостоятельные сущности, и что это нужно учитывать при взаимодействии с ними.

Краткий перевод:

Не воспринимайте большие языковые модели как самостоятельные сущности – думайте о них как о симуляторах. Например, когда вы обсуждаете какую-то тему, не задавайте вопрос:

«Что ты думаешь о xyz?»

Никакого «ты» здесь нет. В следующий раз лучше спросить:

«Какая группа людей подошла бы для обсуждения xyz? Что бы они сказали?»

Модель может воспроизводить и симулировать множество точек зрения, но она не «размышляла» о xyz и не формировала собственных мнений в привычном для нас смысле. Если же вы заставляете ее отвечать, используя обращение «ты», она все равно что-то выдаст – но, по сути, просто приняв на себя некий личностный вектор, заданный статистикой обучающих данных, и симулируя его.

Это вполне допустимо, но в этом гораздо меньше мистики, чем многие наивно предполагают, задавая вопросы «искусственному интеллекту».

Вот что значит качественный совет по промптингу ☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤332👍148🔥46😁8🤔6🗿4⚡3🕊2

26.7K views05:46

Data Secrets

Яков и Партнёры и Яндекс представили ежегодный аналитический репорт «Искусственный интеллект в России — 2025: тренды и перспективы»

Очень много любопытных данных и выводов, российские эксперты смотрят на развитие ИИ оптимистично, а именно:

1. Глава бизнес-группы Поиска Яндекса Дмитрий Масюк в эфире РБК поделился, что ожидаемый экономический эффект от внедрения ИИ в бизнес прогнозируется на уровне ≈ 8–13 трлн рублей в год. Причем больше всего принесет генеративный ИИ — от 1,6 до 2,7 трлн руб.

2. 78% российских компаний, системно применяющих ИИ, уже видят реальный экономический эффект — в основном от сокращения затрат, но есть и те, кому ИИ приносит выручку в новых сервисах и продуктах.

3. Подавляющее большинство компаний используют готовые решения от внешних партнеров, около половины адаптируют их под свои бизнес-процессы.

4. Один из главных трендов на ближайшее время — переход ИИ в физический мир через роботов и носимые устройства, такие как диктофоны или наушники. Ну и конечно ИИ-агенты.

❤40🗿2815👍9🤔7😁6🔥5🎄1💘1

19.5K views07:05

Data Secrets

ИИ-система стартапа, существующего 4 месяца, решила 9/12 задач в одном из самых сложных в мире экзаменов по математике

Putnam (полное название William Lowell Putnam Mathematical Competition) – это ежегодная очень сложная математическая олимпиада для студентов бакалавриата университетов США и Канады. Она считается сложнейшей на этом уровне. Средний результат часто составляет примерно 0–1 балл из 120.

В этом году олимпиада проходила на этих выходных. А сегодня никому не известный очень молодой стартап Axiom объявил о том, что их система AxiomProver решила 9/12 задач конкурса (8 из них в течение самого соревнованию, и одну после его окончания).

Это очень высокий результат. По прошлогодней шкале это было бы абсолютное первое место среди ~4000 участников + статус Putnam Fellow (топ‑10 за несколько лет). В этом году место пока неизвестно, потому что ранг зависит от общего распределения баллов.

Интересно, что модель не просто доказала утверждения на естественном языке, а формализовала их в Lean. То есть каждое решение уже дано в виде машинно-проверяемого proof‑скрипта.

Интересно, участвовали ли Google и OpenAI

❤85🔥40👍2110😁6🤨5⚡1

18.8K viewsedited 08:08

About

Blog

Apps

Platform