Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.42K photos
667 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Новое исследование от Anthropic: ребята решили посчитать реальный экономический эффект от Claude

Чем работа выделяется, так это тем, что эффект считают уже здесь и сейчас. В большинстве подобных отчетов вы встретите только что-то расплывчатое типа "вот если мы автоматизируем 30% задач, это будет +N% к ВВП". Тут считают эмпирику сегодня + на реальных данных юзеров.

Что, по факту, сделали:

1. Взяли 100 000 реальных диалогов юзеров Claude и тщательно (верим) все анонимизировали.

2. Для каждого диалога посчитали, сколько выполняемые задачи бы заняли у человека без ИИ. Получилось в среднем 90 минут, а с помощью Claude – на 80% меньше (опять же, в среднем).

2. Дальше задачи сопоставляли с профессиями (по классификации O*NET + данным из OEWS), чтобы оценить, сколько стоит выполнение такой задачи человеком. Итоговый экономический эффект = (сэкономленные часы) × (средняя $/час профессии).

Получилось, что если ИИ применяется повсеместно, то дает +1.8% росту производительности труда в год.

Учитывая, что доля труда в экономике обычно берется равной 60%, это означает примерно +1.1% годового прироста общей факторной производительности (TFP).

Для понимания: исторический рост TFP в развитых странах ≈ 0.5–1%.

Конечно, есть куча НО. Например, невозможно оценить, сколько люди тратят вне диалога с ИИ на доработку и проверку ответов. Во-вторых, выборка задач нерепрезентативна всей экономике (частично аналика это учитывает, но все же). Ну и наконец, если ИИ ускоряет работу, это не значит, что люди становятся более продуктивными: они могут просто меньше работать 💀

Сами антропики пишут, что рассчитали скорее оценку снизу. "Есть основания полагать, что реальный экономический эффект выше".

www.anthropic.com/research/estimating-productivity-gains
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁55🔥4326🤔11👍4🤯1
Курица не птица, рисерчер с волосами – не авторитет
😁306👍20🔥131044🤔1
Тем временем на ARC-AGI-2 ИИ-системе впервые удалось превзойти уровень человека

В лаборатории Poetiq придумали, как можно соединять разные LLM так, чтобы в разы бустить их производительность (кому интересно, внизу оставим ссылку на код). И вот 20 ноября они заявили, что их подход – микс Gemini 3 и GPT-5.1 – впервые дал на бенчмарке результат, превосходящий человека.

Правда, это только на публичном evaluation-сете. При переносе на semi-private результат, скорее всего, ухудшится. Но учитывая, что по отдельности модели даже близко не дотягивают до 60% (у Gemini 3 45%, у GPT-5 около 20%), все равно новость занятная.

Еще пол года назад ARC-AGI-2 казался для ИИ вообще нерешаемым, а самые топовые модели выбивали на нем 1-2%.

Блогпост | Код
❤‍🔥82🔥352013👍11😁8🤯8🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
В честь пятилетия AlphaFold Google впервые выложили в бесплатный доступ фильм про DeepMind

Картина называется The Thinking Game, наверняка кто-то из вас ее уже смотрел. Фильм вышел летом 2024, но до этого дня был доступен только на платных площадках.

Сегодня, в честь 5-летия AlphaFold, Google впервые бесплатно выложили его на YouTube.

Документалка снималась с 2019 и рассказывает о Демисе Хассабисе, основателе и CEO DeepMind, его команде и ключевых моментах разработки легендарных систем вроде AlphaGo, AlphaZero и AlphaFold.

100% советуем к просмотру: https://youtu.be/d95J8yzvjbQ
👍90🔥321211😁2
Я на любом рабочем дейлике, когда речь заходит о моих задачах
😁204👍181184🔥3
Статья от команды Qwen взяла награду Best Paper Award на NeurIPS 2025

Работа называется "Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free". В ней исследователи предложили новый вид механизма внимания – gated attention.

Суть в том, что на выход каждой attention-головы мы добавляем сигмоидную шторку, которая масштабирует аутпуты.

Фактически, из Attention → Output мы делаем Attention → Sigmoid-gate × Output.

Причем гейт – это обучаемый блок. Интуитивно, гейт учится понимать, насколько голова полезна в конкретном случае, и насколько, следовательно, нужно усилить или заглушить ее сигнал.

В целом хак небольшой, но оказывается, что прокачивает и стабильность обучения, и итоговое качество. А еще помогает избегать залипания внимания на первых токенах и деградации способностей при увеличении контекста.

Короче, работа правда достойная (почитать можно здесь). Так что поздравляем Qwen с очередным успехом.
126🔥43👍30😁21
⚡️ Вышел DeepSeek-Math-V2

С релиза первой версии прошло почти два года. Новую уже никто и не ждал, но релиз, как это часто бывает в случае с DeepSeek, наступил внезапно.

Сразу кратко о результатах:

– Уровень золотой медали на IMO 2025 и CMO 2024 (Chinese Mathematical Olympiad).

– Почти идеальный результат 118/120 на Putnam 2024. Это сверхсложная математическая олимпиада для студентов университетов США и Канады.

– Бенчмарков мало, нет ни MATH, ни GSM8K, ни AIME, вообще почти ничего. Это странновато, но можно пока посмотреть на сравнения с другими моделями на IMO-ProofBench. Видно, что модель довольно уверенно бьет GPT-5 и на сложных задачах выходит на уровень с Gemini 2.5 Pro. Опять же, интересно, что там с Gemini 3, Grok 4 и GPT-5.1.

Теперь заглянем под капот.

Система основана на DeepSeek-V3.2-Exp-Base. Пайплайн состоит из генератора и верификатора.

Доказательство или решение формируется не за раз, а в результате нескольких проходов и улучшений: большая модель генерирует решение -> оно отправляется в модель-верификатор, где тщательно проверяется каждый шаг и ищутся ошибки -> обратная связь от верификатора возвращается генератору -> так доказательство переписывается и улучшается до 16 раз.

При этом в каждой итерации используются и проверяются сразу несколько (до 64) гипотез и вариантов решения. Получается сотни прогонов для одной задачи. Такое вот умное структурированное масштабирование test-time компьюта.

Сколько стоило решение олимпиады – не раскрывают, но видимо немало. Судя по всему, поэтому результатов по бенчмаркам и нет: денег не хватило 😭

Веса | Статья | Репозиторий
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥90😁3621👍15👌3🤔1
Потестили новый Claude Opus 4.5, кстати, отличная модель ⬆️
Please open Telegram to view this post
VIEW IN TELEGRAM
4😁483😎36👍246🔥52
Data Secrets
Сегодня все соцсети гудят о том, что видеокарты сильно подорожают в ближайшее время И да, это, к сожалению, правда. Дело в том, что сейчас наблюдается просто беспрецедентный спрос на память из-за рынка ИИ. По данным TrendForce, цены на память в последнее…
Прошел интересный слух, что в 2026 Nvidia больше не будет продавать партнерам память

То есть вместо того, чтобы поставлять кристалл в комплекте с микросхемами GDDR‑памяти, компания теперь будет отправлять партнерам только сам чип.

Производители будут вынуждены самостоятельно закупать VRAM у Samsung, Micron, SK Hynix и др.

Причина все та же: острая нехватка памяти. Все что есть перенаправляют на строительство датацентров для ИИ, а для игровых видеокарт делиться памятью Nvidia уже невыгодно.

Чем это грозит конечному потребителю, довольно очевидно: рост цен и дефицит отдельных моделей видеокарт 😞
Please open Telegram to view this post
VIEW IN TELEGRAM
123👀1711👍6😁4
Google поздравили всех с Днем Благодарения и выпустили app.new

Это вайбкодинг тулза для создания полноценных веб-приложений по запросу. Просто вводите промпт – агент тут же прототипирует и разворачивает то, что вы хотите.

Короче, просто еще одна забавная обертка для Gemini.

Самое прикольное здесь – пасхалка в названии. У Google есть docs.new, sheets.new и slides.new, meet.new. Но это не ИИ-сервисы, а просто короткие ссылки для быстрого создания новой презентации/таблицы/документа. В этом смысле app.new как бы продолжает линейку и быстро «открывает» для вас приложения 💡

app.new
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8228🤯21😁6🔥2🤝1
Data Secrets
Intellect-2 или как обучить ризонинг модель на 32В без кластера GPU Помните, примерно пол года назад мы рассказывали вам, как в стартапе Prime Intellect впервые децентрализованно обучили крупную LM? Так вот теперь исследователи пошли дальше и обучили уже…
Помните стартап Prime Intellect? Ребята занимаются децентрализованным обучением и на днях впервые выпустили конкурентоспособную модель Intellect-3

Прошлая версия модели вышла в мае и была занятной (в частности потому что обучалась децентрализованно), но не на уровне frontier.

Теперь же по бенчмаркам Intellect-3 опережает GLM-4.5 и DeepSeek-R1-0528, а по математике вообще достигает SOTA в своем размере (она 106B MoE).

Что интересно: для RL-обучения использовался асинхронный RL-фреймворк prime-rl. С инженерной точки зрения это очень сложный процесс и PRIME единственные, кто сейчас таким занимаются. Но успех модели в целом доказал, что подход работает. В стартапе уверены, что именно такие инструменты – это путь к сильным децентрализованным моделям.

Prime-rl уже выложили в опенсорс, так что кому интересно, покапаться в нем можно здесь.

Репорт | HF | Блог
🔥81👍2517😁21
В сети открыли полный доступ в opensource к линейке ИИ-моделей GigaChat

Сбер опубликовал весь стек моделей с лицензией MIT и разрешением на коммерческое использование.

Флагман — GigaChat 3 Ultra-Preview — 702B-MoE модель, полностью обученную с нуля на корпусе в 14 триллионов токенов. Это не адаптация и не дообучение зарубежных весов: у модели собственный датасет, собственный пайплайн синтетики и переработанная архитектура. На русскоязычных и STEM-бенчмарках Ultra-Preview уверенно превосходит российские opensource-аналоги, а также лучше DeepSeek V3.1.
Контекст запоминания — до 128k токенов.

Также в opensource доступна версия Lightning — компактная 10B-MoE модель, которая по скорости инференса конкурирует с Qwen3-1.7B и приближается по качеству к dense-моделям около 8B. Открыта и GigaAM-v3 — набор из пяти моделей для работы с аудио на русском. Отлично распознает речь — показывает −50% WER к Whisper-large-v3.

Открытая линейка GigaChat фактически формирует новую открытую экосистему для разработки, генерации и автоматизации — и делает это именно как самостоятельная архитектура, а не продолжение чьих-то решений.

https://habr.com/ru/companies/sberdevices/articles/968904/
🔥128🤨27👍2523😁11🗿8👾1
Anthropic переработали свой подход к работе с долгим контекстом для агентов

Контекстное окно все еще остается основным ограничением агентов. Если вы ставите агента на какую-то действительно большую долгую задачу, он будет делать ее в несколько сессий. Каждая сессия вмещает только довольно узкое контекстное окно, и когда оно иссякает, у нового запуска будет уже "пустая память".

С этим можно бороться с помощью простейшего сжатия контекста, как сейчас реализовано в Claude Code или Codex, но качество такого подхода, прямо скажем, далеко от идеала.

Сейчас Anthropic пытаются тестировать менее наивный метод. Они пишут, что вдохновились человеческими инженерными практиками, когда каждый разработчик оставляет после себя какие-то артефакты для других. Суть:

1. Перед тем, как задача отойдет кодинг-агенту, над ней работает Initializer agent. Он делает какой-то базовый scaffolding (то есть делит задачу на мелкие), формирует claude-progress.txt и feature-list.

2. Далее идет несколько сессий уже с кодинг-агентами. У каждого все еще отдельное контекстное окно, но отличие от сжатия контекста тут в том, что вся их работа, тем не менее, центразирована и управляется одним набором инструкций.

3. Собственно, инструкции: каждый агент сначала изучает логи, claude-progress.txt и feature-list, затем выбирает одну фичу и реализовывает ее end-to-end, включая тестирование. Также каждый агент обязательно коммитит изменения с информативным сообщением и обновляет прогресс-файлы.


Таким образом, после каждой сессии у нас остается не недоделанная задача и грязный контекст, сжав который, мы получим непонятно что, а чистенькая задокументированная законченная работа, которую можно передать следующему.

В Claude Code пока не довезли, но потестить уже можно в Claude Agent SDK, вот тут инструкция.
96🔥30👍16🤔12😁1🤝1
Случайно нашли картинку, которая описывает буквально любое исследование по элайменту
😁206👍21🔥9🍓44💯1👨‍💻1
Мы как-то пропустили, но оказывается словарь Collins объявили вайб-кодинг словом года

Ждем, когда Рика Рубина из мема про вайб-кодинг сделают человеком года (не зря же он уже попал в топ-100 самых влиятельных людей в ИИ)
😁87🔥21👍1221
ШАД Яндекса научит применять ИИ в исследованиях

ИИ всё глубже уходит в экспериментальную науку — от разработки новых материалов до анализа биомедицинских данных. На этом фоне в Школе анализа данных Яндекса начали обучать исследователей внедрению ИИ в свои научные работы. Среди 50 участников новой программы — кандидаты наук, магистранты и аспиранты из лабораторий по всей стране.

Формат такой: участники изучают основы ИИ и сразу же встраивают их в свои исследования. Каждую команду ведёт эксперт ШАДа — помогает выбрать методы и построить дизайн эксперимента. Если проекту нужны большие вычисления, подключают мощности Yandex Cloud.

В ШАДе объясняют идею: учёным дают фундамент работы с ИИ и современный инструментарий. Цель — чтобы специалисты научились строить исследования, где модели становятся не внешним плагином, а органичной частью научного процесса. Первые результаты ожидают весной, а ещё через год появятся работы, созданные в новой связке «ученый + ИИ».

Такую ИИнтеграцию мы одобряем
2👍60🔥29🗿1910😁9😎1
Ноам Браун, ведущий исследователь OpenAI: «Если смотреть на мнение ведущих ученых, а не на заголовки СМИ, обнаруживается удивительно много согласия по поводу ИИ»

Понравился достаточно хладнокровный и емкий пассаж от Ноама Брауна, который занимается ризонингом в OpenAI. Он пишет, что, если вы действительно хотите понять общую картину отрасли, нужно забыть про ложную дихотомию, которую продвигают СМИ, и смотреть на то, что говорят эксперты. Краткий перевод:

Соцсети обычно сводят дискуссию об ИИ к двум карикатурным позициям:

(A) Скептики, которые считают, что LLM обречены и что ИИ – это просто хайп.
(B) Фанатики, которые уверены, что у нас уже есть все ингредиенты и суперинтеллект вот-вот появится.

Но если почитать, что реально говорят ведущие исследователи (а не заголовки СМИ), то обнаруживается удивительно много согласия:

– Текущая парадигма, скорее всего, уже достаточна, чтобы произвести огромный экономический и социальный эффект – даже без дальнейших научных прорывов.

– Чтобы достичь AGI/ASI, вероятно, все же понадобятся дополнительные исследовательские прорывы. (Continual learning и sample efficiency – два примера, которые исследователи часто упоминают).

– Скорее всего, мы разберемся с этим и придем к AGI/ASI в течение 20 лет. В среднем ученые называют срок 10 лет.

Никто из них не говорит, что ASI – это фантазия или что появление суперинтеллекта – дело 100+ лет.

В основном разногласия касаются того, какими будут нужные прорывы и как быстро они произойдут. Но в целом, если смотреть на картину полностью, эксперты в этой области согласны куда больше, чем не согласны.

x.com/polynoamial/status/1994439121243169176
👍1453613🔥12😁3👀211🤨1🫡11
Media is too big
VIEW IN TELEGRAM
Просто реклама новогодних скидок на Jetson AGX Orin, Jetson Thor и Jetson Orin Nano Super

Дженсен Хуанг однозначно что-то знает про правильный маркетинг 🐕
Please open Telegram to view this post
VIEW IN TELEGRAM
98😁47👍15🔥9🗿3