Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.
NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.
Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.
Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.
Модели 2-х видов:
KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).
KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).
Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.
Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер:
Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.
Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.
Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.
Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.
Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.
@ai_machinelearning_big_data
#AI #ML #LLM #KVZAP #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
❤75👍60🔥20🤔8👏6🎉2🌚2🥰1
Обычные языковые модели читают текст как одну длинную ленту.
Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.
И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.
Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.
Sakana AI предложили решение - RePo (Context Re-Positioning).
Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.
Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её, а лишнее игнорируешь.
Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном
В модели есть обучаемый модуль, который **переназначает позиции токенов по смыслу**, а не по порядку
✅ важно = то, что помогает уменьшать ошибку модели и правильно решать задачу
❌ второстепенно = то, что не помогает (шум), поэтому “отодвигается” по позициям
В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)
Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.
Средний результат по 8 noisy-бенчмаркам:
- Обычный RoPE: 21.07
- RePo: 28.31
Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.
(везде RePo > RoPE)
- TriviaQA: 61.47 → 73.02 (+11.55)
- GovReport: 6.23 → 16.80 (+10.57)
- 2WikiMultihopQA: 23.32 → 30.86 (+7.54)
- MuSiQue: 7.24 → 13.45 (+6.21)
Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.
@ai_machinelearning_big_data
#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤74🔥34👍11🐳1🦄1
Media is too big
VIEW IN TELEGRAM
В этом году масштабируем ML-пилот и не сойдем с ума 💯
80% времени зачастую уходят не на обучение ML-модели, а на объяснение коллегам, почему она принесет профит. А еще на переписывание пайплайна, документации, настройку CI/CD — и все это на этапе пилота. Самое коварное — в статистике, ведь только 10-20% ML-пилотов доходят до прода.
Пока вы были на новогодних каникулах, Selectel вместе с экспертами из «Контура» и «Точка Банка» разобрались, какие ML-проекты достойны релиза. Про экономику ML-проектов и реальные кейсы масштабирования смотрите в новом выпуске подкаста «Сегодня на ретро».
▶️ Что еще интересного есть в Selectel?
Если вы давно хотите развивать ML-проекты, но вам не хватает опыта, посмотрите и другие выпуски «Сегодня на ретро». В них Selectel делится реальными кейсами и бенчмарками успешных ML-моделей для разных бизнес-сегментов.
Selectel не первый год помогает компаниям разворачивать надежную IT-инфраструктуру для AI-решений. И если вы готовы масштабировать пилоты, присмотритесь к мощностям Selectel.
Реклама. АО "Селектел". erid:2W5zFJoBW4p
80% времени зачастую уходят не на обучение ML-модели, а на объяснение коллегам, почему она принесет профит. А еще на переписывание пайплайна, документации, настройку CI/CD — и все это на этапе пилота. Самое коварное — в статистике, ведь только 10-20% ML-пилотов доходят до прода.
Пока вы были на новогодних каникулах, Selectel вместе с экспертами из «Контура» и «Точка Банка» разобрались, какие ML-проекты достойны релиза. Про экономику ML-проектов и реальные кейсы масштабирования смотрите в новом выпуске подкаста «Сегодня на ретро».
▶️ Что еще интересного есть в Selectel?
Если вы давно хотите развивать ML-проекты, но вам не хватает опыта, посмотрите и другие выпуски «Сегодня на ретро». В них Selectel делится реальными кейсами и бенчмарками успешных ML-моделей для разных бизнес-сегментов.
Selectel не первый год помогает компаниям разворачивать надежную IT-инфраструктуру для AI-решений. И если вы готовы масштабировать пилоты, присмотритесь к мощностям Selectel.
Реклама. АО "Селектел". erid:2W5zFJoBW4p
👍13😁10❤7🔥4🥱3🙉3🦄2🤔1
Media is too big
VIEW IN TELEGRAM
Гендир Cursor, Майкл Труэлл, запостил в Х крутую тайм-лапс визуализацию процесса создания браузера роем агентов, о котором мы рассказывали на днях.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤66🔥50👍21🤩11👨💻4❤🔥3🤔3🤗2💯1🦄1
PythonRobotics - открытая коллекция кода на Python и учебник по алгоритмам робототехники, которую собрал Ацуши Сакаи.
К каждой теме есть визуальные анимации, математические объяснения и рабочий код.
Библиотека не перегружена, ее легко читать и понимать, она содержит практические алгоритмы. которые реально используются в индустрии.
Это отличный образовательный ресурс с 2 212 коммитами, вкладом 138 разработчиков и активной поддержкой.
Если вы изучаете робототехнику, создаете автономные системы или преподаете алгоритмы — этот ресурс для вас.
У проекта лицензия MIT, так что можно свободно использовать его в личных или коммерческих проектах.
А еще, это отличный пример, как выглядит хороший опен-сорс: образовательный, практичный, хорошо документированный и развиваемый сообществом.
@ai_machinelearning_big_data
#AI #ML #Robotics #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57🔥46❤32👏4🤩3🤔2👌1🥱1🌭1🦄1😎1
Media is too big
VIEW IN TELEGRAM
Финдир OpenAI Сара Фрайер раскрыла свежую статистику: объем продаж за год превысил $20 млрд. Для сравнения, в 2023 году этот показатель составлял всего $2 млрд.
За тот же период вычислительные мощности OpenAI выросли с 0,2 ГВт до почти 1,9 ГВт. По словам Фрайер, выручка фактически ограничена только доступностью железа: если бы мощностей было больше, монетизация шла бы еще быстрее.
Чтобы поддерживать темп, OpenAI отказалась от стратегии единственного провайдера вычислений и теперь работает с диверсифицированной экосистемой партнеров. 2026 год в компании уже объявили годом "практического внедрения", делая ставку на то, что инвестиции в дата-центры начнут окупаться за счет реального применения ИИ в бизнесе и науке.
openai.com
Легендарный венчурный фонд готовится к своей первой инвестиции в разработчика Claude. Решение принято после недавней смены руководства фонда: новые управляющие партнеры отказались от консервативной тактики избегания концентрации капитала в нескольких сверхдорогих компаниях.
Sequoia уже владеет долями в конкурентах Anthropic: OpenAI и xAI. Традиционно венчурные фирмы не финансируют соперничающие стартапы, однако масштабы ИИ-индустрии заставляют переписывать правила игры.
Инвестиция станет частью гигантского раунда финансирования с целью в $25 млрд. Оценка Anthropic при этом достигнет $350 млрд, удвоившись всего за 4 месяца. Сама компания уже начала юридическую подготовку к IPO.
ft.com
По данным аналитиков из Aicel Technologies, ежемесячный объем платежей за подписки на ИИ достиг $55–60 млн. Это больше, чем средняя месячная выручка Netflix в стране, которая в 2024 году составляла около $50–55 млн.
Безоговорочным лидером остается ChatGPT с долей 71,5%, за ним с большим отрывом следуют Gemini (11%) и Claude (10,7%). Средний чек у физлиц составляет $24, в то время как бизнес тратит около $74 в месяц.
Эксперты отмечают, что генеративный ИИ стремительно превращается в базовую услугу. При текущей годовой выручке в $654 млн. рынок ИИ-подписок в Южной Корее уже в этом году может обогнать Coupang — крупнейший маркетплейс страны.
kedglobal.com
Новый модуль для Raspberry Pi 5 превращает одноплатник в станцию для работы с генеративным ИИ. Устройство подключается через PCIe и базируется на нейропроцессоре Hailo-10H, который выдает до 40 TOPS в вычислениях INT4.
На борту AI HAT+2 8 ГБ собственной памяти LPDDR4X в которую загружаются языковые и визуально-языковые модели, не отнимая ресурсы у основного процессора.
Новинка уже доступна по цене $130. Первые тесты подтверждают разгрузку CPU, однако бета-тестеры говорят, что программная экосистема для генеративных задач все еще находится в стадии активного развития.
raspberrypi.com
Команда Creative Machines Lab показала робота с гибким силиконовым лицом и 26 приводами, который самостоятельно освоил липсинк. Результаты работы, опубликованные в Science Robotics, демонстрируют новый подход к преодолению эффекта "зловещей долины" в робототехнике.
Вместо традиционных политик, инженеры применили метод наблюдательного обучения. Процесс проходил в 2 этапа: сначала робот кривлялся перед зеркалом, сопоставляя работу своих моторов с визуальным результатом, а затем анализировал тысячи видеороликов с людьми на YouTube, обучаясь связывать звуки речи с движениями губ.
Система показала способность адаптироваться к разным языкам без специальной перенастройки, хотя пока испытывает трудности со сложными звуками. Авторы уверены, что сочетание этой адаптивной мимики с разговорными моделями уровня ChatGPT или Gemini станет следующим шагом к созданию эмпатичных роботов-компаньонов.
columbia.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩74👍45❤25🔥19👏5🎉5🤣2🌭1
В полку моделей, тех, что можно запустить локально, не продавая почку, прибыло.
ZAI выкатили GLM-4.7 Flash - облегченную версию GLM-4.7 на 30 млрд. параметров, с контекстным окном в 128К на архитектуре MoE.
Со слов создателей, модель должна занять нишу между сегментом SLM и проприетарными мастодонтами, предлагая SOTA-уровень в кодинге.
Всего 30B, но активных параметров на токен гораздо меньше, официальной инфы нет, но в сообществе пишут, что 3 млрд.
Киллер-фича для агентов, которая досталась в наследство от старшей GLM-4.7. Обычно модели выплевывают весь свой CoT в начале, а вот эта техника дает возможность модели думать перед каждым вызовом инструмента.
Опять-таки, со слов Zai, они натаскали GLM-4.7 Flash не просто писать валидный HTML/CSS, а использовать актуальные паттерны, нормальные отступы и цветовые схемы.
Плюс, подтянули работу с CLI и девопс-задачами (понимает права доступа, навигацию по файловой системе).
В SWE-bench Verified модель выбивает 59.2%. Для сравнения: Qwen3-30B-A3B: 22.0%, GPT-OSS-20B: 34.0%.
В математическом AIME 25 тоже обходит конкурентов - 91.6%. А вот на BrowseComp она лучше GPT-OSS-20B почти в 1.5 раза.
Вобщем, Flash-версия выглядит как идеальный кандидат для локальных кодинг-агентов. Если есть пара свободных видеокарт (или есть стойкость терпеть квантование на одной), это, возможно, лучшая рабочая лошадка на сегодня.
@ai_machinelearning_big_data
#AI #ML #LLM #GLM #ZAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥105👍53❤16👏6👌2🦄2🐳1
Media is too big
VIEW IN TELEGRAM
В обновленном коллективном иске против Nvidia всплыли неожиданные подробности: техногигант напрямую контактировал с крупнейшей теневой библиотеки Anna’s Archive. Согласно судебным документам, инженеры компании искали способ получить приоритетный доступ к массиву данных книг, чтобы ускорить обучение своих языковых моделей.
Ситуация выглядит парадоксально: авторы иска утверждают, что Anna’s Archive предупреждал Nvidia о нелегальном характере контента. Однако менеджмент Nvidia, ссылаясь на конкурентное давление и острую нехватку качественных текстов, дал добро на скачивание.
Речь шла о передаче 500 Тб информации, включающие материалы из LibGen и Sci-Hub, которые Nvidia планировала использовать для тренировки своих моделей.
torrentfreak.com
OpenAI внедряет предиктивный анализ системы защитных фильтров для подростков. Алгоритм оценивает не только данные, указанные при регистрации, но и косвенные признаки: время активности в чате, историю аккаунта и поведенческие паттерны.
Если нейросеть решит, что перед ней несовершеннолетний, ChatGPT ограничит генерацию взрослого контента, а в случае ошибочного срабатывания - придется подтверждать возраст через сервис Persona с помощью селфи.
Это часть новой стратегии по ослаблении цензуры для взрослой аудитории, которая откроет доступ к материалам, ранее заблокированным для всех. Первыми новую механику опробуют пользователи из ЕС уже в ближайшие недели.
openai.com
В свежем Economic Index Repot Anthropic выяснила, что ИИ берет на себя около четверти задач в половине всех профессий, но полное замещение сотрудников происходит менее чем в 10% компаний. Основной паттерн использования сместился от автоматизации к сотрудничеству.
В топе сценариев по-прежнему лидирует кодинг, однако характер работы изменился. Разработчики все чаще используют Claude не для генерации кода с нуля, а для обучения, получения фидбека и доработки решений.
Главный риск касается новичков. ИИ забрал на себя всю рутину, на которой традиционно набивали руку джуны и это создает проблему: продуктивность сеньоров растет, но у молодых специалистов исчезает полигон для получения первичного опыта.
anthropic.com
Платформа представила функцию паблишинга, которая берет на себя техническую рутину по развертыванию приложений. Инструмент не только компилирует код, но и полностью автоматизирует подготовку тестовых окружений для iOS и Android.
Для Android система генерирует готовый AAB-файл, который остается лишь загрузить в Google Play Console. С Apple интеграция еще глубже: Manus самостоятельно создает запись приложения в аккаунте разработчика, упаковывает сборку и отправляет ее в App Store Connect на ревью в TestFlight. Функция уже открыта для всех пользователей с доступом к Develop Apps.
manus.im
OptiMind — MoE-модель с 20B/3.6A параметров, которая умеет преобразовывать текстовые описания задач (планирование логистики, производство или цепочки поставок) в готовые математические формулировки, понятные профессиональному софту.
Несмотря на скромный размер, OptiMind не уступает крупным аналогам. Инженеры Microsoft вручную чистили датасеты от некорректных решений и задействовали систему экспертных подсказок, которая корректирует логику модели в процессе генерации. Модель доступна на Hugging Face под лицензией MIT.
microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤54🤔28👍22🔥11🤓7👏6🤣6💯2🙏1🐳1
Machinelearning
В этом году масштабируем ML-пилот и не сойдем с ума 💯 80% времени зачастую уходят не на обучение ML-модели, а на объяснение коллегам, почему она принесет профит. А еще на переписывание пайплайна, документации, настройку CI/CD — и все это на этапе пилота.…
⬆️Важный пойнт из подкаста про масштабирование ML-пилотов: когда проект начинает расти, IT-инфраструктура становится не менее важной, чем сама ML-часть продукта.
Чтобы спокойно пройти этот этап, в Selectel можно арендовать облачные и выделенные серверы с GPU – от GTX и RTX до A100 и H200. Облачные серверы позволяют гибко наращивать ресурсы, а выделенные подходят для стабильного инференса и долгоживущих ML-нагрузок.
Хороший вариант, чтобы масштабировать проект или запустить новую задачу. Протестируйте на практике: https://slc.tl/96epf
Реклама. АО "Селектел". erid:2W5zFJpwcYG
Чтобы спокойно пройти этот этап, в Selectel можно арендовать облачные и выделенные серверы с GPU – от GTX и RTX до A100 и H200. Облачные серверы позволяют гибко наращивать ресурсы, а выделенные подходят для стабильного инференса и долгоживущих ML-нагрузок.
Хороший вариант, чтобы масштабировать проект или запустить новую задачу. Протестируйте на практике: https://slc.tl/96epf
Реклама. АО "Селектел". erid:2W5zFJpwcYG
👍24❤11👏9🤔5🗿5😍3🥰1👌1💅1
RealOmni - это не просто каталог видео, где роборука хватает кубик на белом столе. Это мультимодальный подарок с траекториями, аннотациями и движениями суставов.
Картинка с Fisheye-камер, данные IMU (инерциалка), энкодеры и данные с тактильных датчиков с разрешением 1 мм.
Снимали в 3000 реальных домах, никаких стерильных лабораторий: складывание одежды, завязывание шнурков, разбор посуды и сортировка всякого хлама.
Почти все таски двурукие.
Медианная длина клипа ~ 210 секунд. То есть это не "схватил-положил", а полноценные процессы "достать, сложить, убрать в ящик".
В свежем обновлении добавили 35 тыс. клипов с фокусом на разгребание куч разнородных предметов. Это именно та задача, на которой сыпется большинство моделей.
Немного цифр о всем датасете
Весть проект запланирован объемом 95 ТБ и хронометражем 10,000 часов. Но если посчитать, то что уже залито (Stage 1 + Stage 2), то суммарно около 5.4 ТБ и ~1600 часов. Остальное обещают догрузить as soon as possible.
Данные собраны специфическим гриппером GenDAS, так что если у вас другой сенсорный массив (или его нет), transfer learning может стать болью. Ассеты заточены под железку GenRobot.
Это все еще телеоперация. То есть мы учим робота копировать движения человека-оператора и если он тупил или руки дрожали сетка это тоже выучит.
Тем не менее, это очень крутой релиз для тех, кто пилит домашних роботов. Данные по завязыванию шнурков и разбору предметов в open-source редкость.
@ai_machinelearning_big_data
#AI #ML #Robotics #Dataset #RealOmni #GenRoborAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤59👨💻31👍30🔥18🤩9👏5👌1🤓1💅1
📉 Давос: CEO Anthropic и CEO DeepMind - о том, как ИИ изменит рынок труда
На Давосском форуме Дарио Амодеи (CEO Anthropic, компании-разработчика Claude) дал жёсткий прогноз: мы можем прийти к необычной ситуации, когда экономика и ВВП быстро растут, но безработица растёт почти так же быстро.
По его оценке, сильнее всего пострадают позиции для начинающих: в течение 5 лет безработица среди junior / entry-level вакансий может доходить до 50%.
Демис Хассабис (CEO Google DeepMind) ответил осторожнее.
По его мнению, до этого сценария ещё далеко - у текущих моделей остаются ключевые ограничения:
- Consistency - ИИ работает нестабильно: сегодня отлично, завтра с ошибками
- Jagged intelligence - “рваный интеллект”: в одной задаче модель сильная, в другой внезапно проваливается
Главная мысль Хассабиса: ИИ, который делает 95% работы, ещё не заменяет человека.
Чтобы замена произошла система должна закрывать почти 100% задач - надёжно и без постоянного контроля.
Амодеи ждёт сильный удар по джунам уже в ближайшие годы, а Хассабис считает, что до массовой замены людей технологии пока не доросли и не дорастут в ближайшее время.
@ai_machinelearning_big_data
На Давосском форуме Дарио Амодеи (CEO Anthropic, компании-разработчика Claude) дал жёсткий прогноз: мы можем прийти к необычной ситуации, когда экономика и ВВП быстро растут, но безработица растёт почти так же быстро.
По его оценке, сильнее всего пострадают позиции для начинающих: в течение 5 лет безработица среди junior / entry-level вакансий может доходить до 50%.
Демис Хассабис (CEO Google DeepMind) ответил осторожнее.
По его мнению, до этого сценария ещё далеко - у текущих моделей остаются ключевые ограничения:
- Consistency - ИИ работает нестабильно: сегодня отлично, завтра с ошибками
- Jagged intelligence - “рваный интеллект”: в одной задаче модель сильная, в другой внезапно проваливается
Главная мысль Хассабиса: ИИ, который делает 95% работы, ещё не заменяет человека.
Чтобы замена произошла система должна закрывать почти 100% задач - надёжно и без постоянного контроля.
Амодеи ждёт сильный удар по джунам уже в ближайшие годы, а Хассабис считает, что до массовой замены людей технологии пока не доросли и не дорастут в ближайшее время.
@ai_machinelearning_big_data
👍58🤔41❤38🔥17🤨11😢8👏7😐6👨💻6😁3🥱2