Обычные языковые модели читают текст как одну длинную ленту.
Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.
И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.
Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.
Sakana AI предложили решение - RePo (Context Re-Positioning).
Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.
Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её, а лишнее игнорируешь.
Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном
В модели есть обучаемый модуль, который **переназначает позиции токенов по смыслу**, а не по порядку
✅ важно = то, что помогает уменьшать ошибку модели и правильно решать задачу
❌ второстепенно = то, что не помогает (шум), поэтому “отодвигается” по позициям
В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)
Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.
Средний результат по 8 noisy-бенчмаркам:
- Обычный RoPE: 21.07
- RePo: 28.31
Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.
(везде RePo > RoPE)
- TriviaQA: 61.47 → 73.02 (+11.55)
- GovReport: 6.23 → 16.80 (+10.57)
- 2WikiMultihopQA: 23.32 → 30.86 (+7.54)
- MuSiQue: 7.24 → 13.45 (+6.21)
Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.
@ai_machinelearning_big_data
#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤74🔥33👍11🐳1🦄1
Media is too big
VIEW IN TELEGRAM
В этом году масштабируем ML-пилот и не сойдем с ума 💯
80% времени зачастую уходят не на обучение ML-модели, а на объяснение коллегам, почему она принесет профит. А еще на переписывание пайплайна, документации, настройку CI/CD — и все это на этапе пилота. Самое коварное — в статистике, ведь только 10-20% ML-пилотов доходят до прода.
Пока вы были на новогодних каникулах, Selectel вместе с экспертами из «Контура» и «Точка Банка» разобрались, какие ML-проекты достойны релиза. Про экономику ML-проектов и реальные кейсы масштабирования смотрите в новом выпуске подкаста «Сегодня на ретро».
▶️ Что еще интересного есть в Selectel?
Если вы давно хотите развивать ML-проекты, но вам не хватает опыта, посмотрите и другие выпуски «Сегодня на ретро». В них Selectel делится реальными кейсами и бенчмарками успешных ML-моделей для разных бизнес-сегментов.
Selectel не первый год помогает компаниям разворачивать надежную IT-инфраструктуру для AI-решений. И если вы готовы масштабировать пилоты, присмотритесь к мощностям Selectel.
Реклама. АО "Селектел". erid:2W5zFJoBW4p
80% времени зачастую уходят не на обучение ML-модели, а на объяснение коллегам, почему она принесет профит. А еще на переписывание пайплайна, документации, настройку CI/CD — и все это на этапе пилота. Самое коварное — в статистике, ведь только 10-20% ML-пилотов доходят до прода.
Пока вы были на новогодних каникулах, Selectel вместе с экспертами из «Контура» и «Точка Банка» разобрались, какие ML-проекты достойны релиза. Про экономику ML-проектов и реальные кейсы масштабирования смотрите в новом выпуске подкаста «Сегодня на ретро».
▶️ Что еще интересного есть в Selectel?
Если вы давно хотите развивать ML-проекты, но вам не хватает опыта, посмотрите и другие выпуски «Сегодня на ретро». В них Selectel делится реальными кейсами и бенчмарками успешных ML-моделей для разных бизнес-сегментов.
Selectel не первый год помогает компаниям разворачивать надежную IT-инфраструктуру для AI-решений. И если вы готовы масштабировать пилоты, присмотритесь к мощностям Selectel.
Реклама. АО "Селектел". erid:2W5zFJoBW4p
👍12😁10❤7🔥4🥱3🙉3🤔1🦄1
Media is too big
VIEW IN TELEGRAM
Гендир Cursor, Майкл Труэлл, запостил в Х крутую тайм-лапс визуализацию процесса создания браузера роем агентов, о котором мы рассказывали на днях.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤64🔥50👍21🤩10👨💻4🤔3❤🔥2🤗2💯1🦄1
PythonRobotics - открытая коллекция кода на Python и учебник по алгоритмам робототехники, которую собрал Ацуши Сакаи.
К каждой теме есть визуальные анимации, математические объяснения и рабочий код.
Библиотека не перегружена, ее легко читать и понимать, она содержит практические алгоритмы. которые реально используются в индустрии.
Это отличный образовательный ресурс с 2 212 коммитами, вкладом 138 разработчиков и активной поддержкой.
Если вы изучаете робототехнику, создаете автономные системы или преподаете алгоритмы — этот ресурс для вас.
У проекта лицензия MIT, так что можно свободно использовать его в личных или коммерческих проектах.
А еще, это отличный пример, как выглядит хороший опен-сорс: образовательный, практичный, хорошо документированный и развиваемый сообществом.
@ai_machinelearning_big_data
#AI #ML #Robotics #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55🔥45❤32👏4🤩3🤔1👌1🥱1🦄1😎1
Media is too big
VIEW IN TELEGRAM
Финдир OpenAI Сара Фрайер раскрыла свежую статистику: объем продаж за год превысил $20 млрд. Для сравнения, в 2023 году этот показатель составлял всего $2 млрд.
За тот же период вычислительные мощности OpenAI выросли с 0,2 ГВт до почти 1,9 ГВт. По словам Фрайер, выручка фактически ограничена только доступностью железа: если бы мощностей было больше, монетизация шла бы еще быстрее.
Чтобы поддерживать темп, OpenAI отказалась от стратегии единственного провайдера вычислений и теперь работает с диверсифицированной экосистемой партнеров. 2026 год в компании уже объявили годом "практического внедрения", делая ставку на то, что инвестиции в дата-центры начнут окупаться за счет реального применения ИИ в бизнесе и науке.
openai.com
Легендарный венчурный фонд готовится к своей первой инвестиции в разработчика Claude. Решение принято после недавней смены руководства фонда: новые управляющие партнеры отказались от консервативной тактики избегания концентрации капитала в нескольких сверхдорогих компаниях.
Sequoia уже владеет долями в конкурентах Anthropic: OpenAI и xAI. Традиционно венчурные фирмы не финансируют соперничающие стартапы, однако масштабы ИИ-индустрии заставляют переписывать правила игры.
Инвестиция станет частью гигантского раунда финансирования с целью в $25 млрд. Оценка Anthropic при этом достигнет $350 млрд, удвоившись всего за 4 месяца. Сама компания уже начала юридическую подготовку к IPO.
ft.com
По данным аналитиков из Aicel Technologies, ежемесячный объем платежей за подписки на ИИ достиг $55–60 млн. Это больше, чем средняя месячная выручка Netflix в стране, которая в 2024 году составляла около $50–55 млн.
Безоговорочным лидером остается ChatGPT с долей 71,5%, за ним с большим отрывом следуют Gemini (11%) и Claude (10,7%). Средний чек у физлиц составляет $24, в то время как бизнес тратит около $74 в месяц.
Эксперты отмечают, что генеративный ИИ стремительно превращается в базовую услугу. При текущей годовой выручке в $654 млн. рынок ИИ-подписок в Южной Корее уже в этом году может обогнать Coupang — крупнейший маркетплейс страны.
kedglobal.com
Новый модуль для Raspberry Pi 5 превращает одноплатник в станцию для работы с генеративным ИИ. Устройство подключается через PCIe и базируется на нейропроцессоре Hailo-10H, который выдает до 40 TOPS в вычислениях INT4.
На борту AI HAT+2 8 ГБ собственной памяти LPDDR4X в которую загружаются языковые и визуально-языковые модели, не отнимая ресурсы у основного процессора.
Новинка уже доступна по цене $130. Первые тесты подтверждают разгрузку CPU, однако бета-тестеры говорят, что программная экосистема для генеративных задач все еще находится в стадии активного развития.
raspberrypi.com
Команда Creative Machines Lab показала робота с гибким силиконовым лицом и 26 приводами, который самостоятельно освоил липсинк. Результаты работы, опубликованные в Science Robotics, демонстрируют новый подход к преодолению эффекта "зловещей долины" в робототехнике.
Вместо традиционных политик, инженеры применили метод наблюдательного обучения. Процесс проходил в 2 этапа: сначала робот кривлялся перед зеркалом, сопоставляя работу своих моторов с визуальным результатом, а затем анализировал тысячи видеороликов с людьми на YouTube, обучаясь связывать звуки речи с движениями губ.
Система показала способность адаптироваться к разным языкам без специальной перенастройки, хотя пока испытывает трудности со сложными звуками. Авторы уверены, что сочетание этой адаптивной мимики с разговорными моделями уровня ChatGPT или Gemini станет следующим шагом к созданию эмпатичных роботов-компаньонов.
columbia.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩66👍45❤25🔥19👏5🎉4🤣2
В полку моделей, тех, что можно запустить локально, не продавая почку, прибыло.
ZAI выкатили GLM-4.7 Flash - облегченную версию GLM-4.7 на 30 млрд. параметров, с контекстным окном в 128К на архитектуре MoE.
Со слов создателей, модель должна занять нишу между сегментом SLM и проприетарными мастодонтами, предлагая SOTA-уровень в кодинге.
Всего 30B, но активных параметров на токен гораздо меньше, официальной инфы нет, но в сообществе пишут, что 3 млрд.
Киллер-фича для агентов, которая досталась в наследство от старшей GLM-4.7. Обычно модели выплевывают весь свой CoT в начале, а вот эта техника дает возможность модели думать перед каждым вызовом инструмента.
Опять-таки, со слов Zai, они натаскали GLM-4.7 Flash не просто писать валидный HTML/CSS, а использовать актуальные паттерны, нормальные отступы и цветовые схемы.
Плюс, подтянули работу с CLI и девопс-задачами (понимает права доступа, навигацию по файловой системе).
В SWE-bench Verified модель выбивает 59.2%. Для сравнения: Qwen3-30B-A3B: 22.0%, GPT-OSS-20B: 34.0%.
В математическом AIME 25 тоже обходит конкурентов - 91.6%. А вот на BrowseComp она лучше GPT-OSS-20B почти в 1.5 раза.
Вобщем, Flash-версия выглядит как идеальный кандидат для локальных кодинг-агентов. Если есть пара свободных видеокарт (или есть стойкость терпеть квантование на одной), это, возможно, лучшая рабочая лошадка на сегодня.
@ai_machinelearning_big_data
#AI #ML #LLM #GLM #ZAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥100👍50❤13👏6👌2
Media is too big
VIEW IN TELEGRAM
В обновленном коллективном иске против Nvidia всплыли неожиданные подробности: техногигант напрямую контактировал с крупнейшей теневой библиотеки Anna’s Archive. Согласно судебным документам, инженеры компании искали способ получить приоритетный доступ к массиву данных книг, чтобы ускорить обучение своих языковых моделей.
Ситуация выглядит парадоксально: авторы иска утверждают, что Anna’s Archive предупреждал Nvidia о нелегальном характере контента. Однако менеджмент Nvidia, ссылаясь на конкурентное давление и острую нехватку качественных текстов, дал добро на скачивание.
Речь шла о передаче 500 Тб информации, включающие материалы из LibGen и Sci-Hub, которые Nvidia планировала использовать для тренировки своих моделей.
torrentfreak.com
OpenAI внедряет предиктивный анализ системы защитных фильтров для подростков. Алгоритм оценивает не только данные, указанные при регистрации, но и косвенные признаки: время активности в чате, историю аккаунта и поведенческие паттерны.
Если нейросеть решит, что перед ней несовершеннолетний, ChatGPT ограничит генерацию взрослого контента, а в случае ошибочного срабатывания - придется подтверждать возраст через сервис Persona с помощью селфи.
Это часть новой стратегии по ослаблении цензуры для взрослой аудитории, которая откроет доступ к материалам, ранее заблокированным для всех. Первыми новую механику опробуют пользователи из ЕС уже в ближайшие недели.
openai.com
В свежем Economic Index Repot Anthropic выяснила, что ИИ берет на себя около четверти задач в половине всех профессий, но полное замещение сотрудников происходит менее чем в 10% компаний. Основной паттерн использования сместился от автоматизации к сотрудничеству.
В топе сценариев по-прежнему лидирует кодинг, однако характер работы изменился. Разработчики все чаще используют Claude не для генерации кода с нуля, а для обучения, получения фидбека и доработки решений.
Главный риск касается новичков. ИИ забрал на себя всю рутину, на которой традиционно набивали руку джуны и это создает проблему: продуктивность сеньоров растет, но у молодых специалистов исчезает полигон для получения первичного опыта.
anthropic.com
Платформа представила функцию паблишинга, которая берет на себя техническую рутину по развертыванию приложений. Инструмент не только компилирует код, но и полностью автоматизирует подготовку тестовых окружений для iOS и Android.
Для Android система генерирует готовый AAB-файл, который остается лишь загрузить в Google Play Console. С Apple интеграция еще глубже: Manus самостоятельно создает запись приложения в аккаунте разработчика, упаковывает сборку и отправляет ее в App Store Connect на ревью в TestFlight. Функция уже открыта для всех пользователей с доступом к Develop Apps.
manus.im
OptiMind — MoE-модель с 20B/3.6A параметров, которая умеет преобразовывать текстовые описания задач (планирование логистики, производство или цепочки поставок) в готовые математические формулировки, понятные профессиональному софту.
Несмотря на скромный размер, OptiMind не уступает крупным аналогам. Инженеры Microsoft вручную чистили датасеты от некорректных решений и задействовали систему экспертных подсказок, которая корректирует логику модели в процессе генерации. Модель доступна на Hugging Face под лицензией MIT.
microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27👍11🤔10🔥8🤣4🤓4👏3🙏1💯1