🔭 Вышло огромное исследование на 303 страницы от ведущих китайских лабораторий — подробный разбор того, как создают и обучают модели, ориентированные на написание кода, и как на их основе строят полноценные софт-агенты.
Вот что в нём разбирается:
1. Как формируют модель
- Сбор и очистка гигантских датасетов кода.
- Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах.
- SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок.
2. Как модели превращают в инженерных агентов
- Агент читает баг-репорт или фичу.
- Планирует шаги.
- Меняет файлы.
- Запускает тесты.
- Повторяет цикл, пока не добьётся результата.
3. Какие проблемы всё ещё остаются
- Работа с огромными репозиториями.
- Безопасность и надёжность генерируемого кода.
- Корректная оценка качества работы агентов.
- Реальные приёмы и лайфхаки, которые используют текущие команды.
Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде.
https://arxiv.org/abs/2511.18538
Вот что в нём разбирается:
1. Как формируют модель
- Сбор и очистка гигантских датасетов кода.
- Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах.
- SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок.
2. Как модели превращают в инженерных агентов
- Агент читает баг-репорт или фичу.
- Планирует шаги.
- Меняет файлы.
- Запускает тесты.
- Повторяет цикл, пока не добьётся результата.
3. Какие проблемы всё ещё остаются
- Работа с огромными репозиториями.
- Безопасность и надёжность генерируемого кода.
- Корректная оценка качества работы агентов.
- Реальные приёмы и лайфхаки, которые используют текущие команды.
Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде.
https://arxiv.org/abs/2511.18538
Лонгрид материала от Main Street Autonomy, о том, как лидары видят мир, почему они прожигают камеры смартфонов и где маркетологи нас обманывают.
В отличие от обычной камеры, которая фиксирует интенсивность света, лидар - это активный сенсор. Он отправляет свет и ловит его отражение. Его цель - измерить расстояние и направление.
В результате получается облако точек, где каждая точка - это точное положение объекта в пространстве. Камеры дают разрешение и цвет, а лидары - точную геометрию.
Самый популярный - Direct time of flight. Лидар посылает лазерный импульс и засекает время, за которое он вернется. Зная скорость света, можно посчитать расстояние. Но чтобы это работало, нужны невероятно быстрые детекторы.
APD - это лавинные фотодиоды. Они надежны, работают в линейном режиме, но требуют сложной аналоговой электроники.
А вот SPAD - однофотонные лавинные диоды, это настоящий бриллиант. Они настолько чувствительны, что реагируют на единственный фотон, работая в режиме счетчика Гейгера.
Главный плюс SPAD в том, что они совместимы с CMOS-процессом. Это значит, что их можно делать на тех же кремниевых пластинах, что и процессоры, создавая огромные массивы - их называют SPAD macropixels. Это путь компаний Ouster и Sony.
Но есть и другой путь - FMCW, или частотно-модулированный лидар. Здесь лазер светит постоянно, меняя частоту, а расстояние вычисляется по сдвигу фазы вернувшегося сигнала.
С FMCW можно измерять не только дальность, но и мгновенную скорость объекта через эффект Доплера. Звучит круто, но требует дорогих лазеров.
Исторически, первым решением было просто вращать весь лидар. Старые модели на крышах машин - те самые «ведра», которые крутятся на 360 градусов. Это надежно, дает полный обзор, но механически сложно и дорого.
Современный тренд - уход от вращения всей «головы» к более хитрым методам.
MEMS mirror. Это крошечные зеркала на чипе, которые вибрируют и отклоняют луч.
Risley prisms. Две вращающиеся призмы, преломляющие луч так, что он рисует сложный узор, похожий на цветок.
Есть совсем футуристичный Baraja SpectrumScan. Они вообще отказались от движущихся зеркал в одной из плоскостей. Они меняют длину волны лазера, пропуская свет через призму. Разные цвета преломляются под разным углом и луч сканирует пространство просто за счет изменения цвета. Гениально, но требует очень качественного источника света.
Большинство лидаров работают на длине волны 905 nm. Но есть проблема: человеческий глаз фокусирует этот свет на сетчатке. Если поднять мощность, можно буквально выжечь человеку глаз. Поэтому мощность таких лидаров жестко ограничена.
1550 nm. Этот свет поглощается жидкостью в глазу и не доходит до сетчатки. И мощность можно поднимать в тысячи раз, что дает огромную дальность обнаружения.
Но для детекторов на этой частоте нужен дорогой сплав InGaAs, а в качестве источника часто используют волоконные лазеры.
И тут есть нюанс: мощный лазер 1550 nm безопасен для сетчатки, но может повредить роговицу нагревом. Более того, такие мощные лидары сжигают матрицы обычных камер и смартфонов, если те окажутся на "линии огня".
Многие лидары врут. Одна из частых проблем - рассинхрон углов лучей. Даже в знаменитом датасете KITTI находили ошибки калибровки, из-за чего плоские стены становились кривыми.
Еще одна беда - «блюминг». Если лазер попадает в дорожный знак или катафот, отраженный сигнал настолько силен, что засвечивает соседние пиксели. Лидар видит призрачные объекты там, где их нет.
Есть такой термин - "Solid State LiDAR". Производители любят называть так свои устройства, чтобы подчеркнуть надежность.
Но часто это не так. Они выглядят как цельные коробки, но внутри у них есть движущиеся части: зеркала или призмы.
Настоящий Solid State - это когда вообще ничего не движется, даже внутри. Это то, к чему стремится индустрия. Но пока механика все еще с нами.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Чуть меньше 3-х лет прошло между этими генерациями Уилла Смита, поедающего спагетти.
Слева - ролик, созданный в феврале 2023 года пользователем Reddit chaindrop на модели ModelScope text2video.
Справа - современная генерация на свежем Kling 2.6
С чем мы будем сравнивать видос Уилла Смита в 2030 году?
Please open Telegram to view this post
VIEW IN TELEGRAM
Модель построена на архитектуре Mixture of Experts с общим размером 406B параметров и 32B активных.
Модель поддерживает контекст 256K токенов. HY 2.0 демонстрирует заметные улучшения на ключевых бенчмарках.
Главные достижения HY 2.0:
🧠 Reasoning: результат 73.4 на IMO AnswerBench - почти плюс 20 процентов, что закрепляет модель среди лидеров по математическому и научному мышлению.
🛠 Coding и Agents: скачок в SWE Bench Verified с 6.0 до 53.0, а Tau2 Bench вырос с 17.1 до 72.4.
⚡ Instruction Following: более стабильное выполнение сложных инструкций и естественный стиль ответов.
Модель выпускается в двух вариантах:
• HY 2.0 Think - для глубокого рассуждения, генерации кода и сложных задач
• HY 2.0 Instruct - для диалога, креативного письма и многотуровых контекстных бесед
🌐 Website: https://hunyuan.tencent.com
🔗 API Access: http://hunyuan.cloud.tencent.com/#/app/modelSquare
📄 Documentation: https://cloud.tencent.com/document/product/1729/104753
@data_analysis_ml
#AI #Tencent #Hunyuan #HY2 #LLM #MoE #DeepLearning #AIModels
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2.
Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA.
Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов.
Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL.
В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX.
Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми.
В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA.
Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее.
Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д.
HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек.
В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем
torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра.А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с
torch.matmul и cuBLAS.Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций.
В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM.
@ai_machinelearning_big_data
#AI #ML #CUDA #DeepReinforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
The Verge пишет, что по информации инсайдеров, OpenAI планирует представить обновление уже в начале следующей недели, ориентировочно 9 декабря.
Ожидается, что GPT-5.2 вернет компании доминирующие позиции в сегменте больших языковых моделей.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🇨🇳 Китай официально начал продавать первый в мире квантовый компьютер на атомной базе — момент, когда квантовое железо выходит из лабораторий в коммерческий рынок.
В отличие от сверхпроводниковых или ионных систем, эта машина использует отдельные атомы, расположенные в оптических решётках. Такие атомы работают как стабильные кубиты с намного более длительным временем когерентности — меньше ошибок, значит можно выполнять глубже и сложнее вычисления.
Первые демонстрации показали работу над молекулярными симуляциями, взломом криптографии и оптимизационными задачами, которые доводят классические суперкомпьютеры до предела. Управляя атомами с помощью ультра-точных лазеров, разработчики добились уровня контроля, при котором атомные кубиты становятся особенно надёжными для реальных научных и промышленных задач.
Впервые университеты, корпорации и исследцентры могут купить полноценный атомный квантовый компьютер, а не пользоваться им через облако. Это открывает путь к частному квантовому поиску лекарств, разработке новых материалов, ускорению ИИ и тестированию будущей кибербезопасности.
Аналитики предупреждают: это может резко ускорить глобальную квантовую гонку и изменить баланс технологической мощи в ближайшие десятилетия.
#QuantumComputing
https://x.com/ShiningScience/status/1997633207957926118
В отличие от сверхпроводниковых или ионных систем, эта машина использует отдельные атомы, расположенные в оптических решётках. Такие атомы работают как стабильные кубиты с намного более длительным временем когерентности — меньше ошибок, значит можно выполнять глубже и сложнее вычисления.
Первые демонстрации показали работу над молекулярными симуляциями, взломом криптографии и оптимизационными задачами, которые доводят классические суперкомпьютеры до предела. Управляя атомами с помощью ультра-точных лазеров, разработчики добились уровня контроля, при котором атомные кубиты становятся особенно надёжными для реальных научных и промышленных задач.
Впервые университеты, корпорации и исследцентры могут купить полноценный атомный квантовый компьютер, а не пользоваться им через облако. Это открывает путь к частному квантовому поиску лекарств, разработке новых материалов, ускорению ИИ и тестированию будущей кибербезопасности.
Аналитики предупреждают: это может резко ускорить глобальную квантовую гонку и изменить баланс технологической мощи в ближайшие десятилетия.
#QuantumComputing
https://x.com/ShiningScience/status/1997633207957926118
📉 Производительность и зарплаты давно разошлись - и ИИ, вероятно, только расширит этот разрыв.
До примерно 1970-х рост выпуска на работника и рост оплаты труда двигались вместе.
После производительность продолжила резко расти, а почасовая компенсация застыла. Это почти наверняка означает, что добавленная стоимость начала уходить владельцам капитала, а не обычным работникам.
ИИ усиливает тенденцию: он повышает эффективность, но выгоды могут закрепляться у тех, кто владеет технологиями и инфраструктурой, а не у тех, кто их использует.
До примерно 1970-х рост выпуска на работника и рост оплаты труда двигались вместе.
После производительность продолжила резко расти, а почасовая компенсация застыла. Это почти наверняка означает, что добавленная стоимость начала уходить владельцам капитала, а не обычным работникам.
ИИ усиливает тенденцию: он повышает эффективность, но выгоды могут закрепляться у тех, кто владеет технологиями и инфраструктурой, а не у тех, кто их использует.
💰 OpenAI строит гигантские дата-центры, но 2026-й может стать моментом “проверки на реальность”
Forbes пишет: на фоне планов инфраструктуры примерно на $1,4 трлн, OpenAI имеет лишь около $20 млрд выручки и большая часть проекта опирается на ожидание будущего спроса, которого пока нет.
Модель финансирования выглядит так:
Cloud-операторы вроде CoreWeave и Crusoe, плюс партнёры типа SoftBank и Oracle, берут кредиты, покупают GPU, закладывают их как залог, и рассчитывают, что:
- трафик OpenAI загрузит мощности,
- Nvidia “выкупит” избыточную ёмкость, если спрос окажется ниже ожиданий.
То есть создаётся замкнутый цикл, который может переоценивать реальную рыночную потребность.
Проблема в том, что корпоративный спрос пока — это осторожные пилоты, а кластеры нужно обновлять каждые 5–7 лет.
По мнению автора, в 2026 инвесторы и кредиторы начнут давить на OpenAI, требуя замедлить или урезать проект Stargate, если компания не докажет, что каждая единица мощности приносит прибыль быстрее, чем Google и другие успевают догнать по качеству моделей.
⚠️ Вывод: если реальный спрос не вырастет, текущая стратегия может превратиться в риск «слишком много построили слишком рано».
forbes.com/sites/paulocarvao/2025/12/06/why-openais-ai-data-center-buildout-faces-a-2026-reality-check/
Forbes пишет: на фоне планов инфраструктуры примерно на $1,4 трлн, OpenAI имеет лишь около $20 млрд выручки и большая часть проекта опирается на ожидание будущего спроса, которого пока нет.
Модель финансирования выглядит так:
Cloud-операторы вроде CoreWeave и Crusoe, плюс партнёры типа SoftBank и Oracle, берут кредиты, покупают GPU, закладывают их как залог, и рассчитывают, что:
- трафик OpenAI загрузит мощности,
- Nvidia “выкупит” избыточную ёмкость, если спрос окажется ниже ожиданий.
То есть создаётся замкнутый цикл, который может переоценивать реальную рыночную потребность.
Проблема в том, что корпоративный спрос пока — это осторожные пилоты, а кластеры нужно обновлять каждые 5–7 лет.
По мнению автора, в 2026 инвесторы и кредиторы начнут давить на OpenAI, требуя замедлить или урезать проект Stargate, если компания не докажет, что каждая единица мощности приносит прибыль быстрее, чем Google и другие успевают догнать по качеству моделей.
⚠️ Вывод: если реальный спрос не вырастет, текущая стратегия может превратиться в риск «слишком много построили слишком рано».
forbes.com/sites/paulocarvao/2025/12/06/why-openais-ai-data-center-buildout-faces-a-2026-reality-check/
Главные новости ИИ и МЛ
✔️ Релиз GLM-4.6V с нативной поддержкой вызова функций.
В линейку вошли флагманская GLM-4.6V на 106 млрд. параметров и облегченная GLM-4.6V-Flash (9B). Обе получили контекстное окно в 128k токенов и генерацию смешанного контента, где текст комбинируется с изображениями. Модель может передавать изображения и скриншоты во внешние инструменты без предварительной конвертации в текст, а также встраивать визуальные результаты обратно в цепочку рассуждений.
Обе модели уже на HuggingFace, доступны по API и в веб-версии.
z.ai
✔️ Стартап из шести человек обошел Google Gemini 3 в тесте на логику ARC-AGI.
Команда Poetiq заняла 1 место в полузакрытом бенчмарке ARC-AGI-2, набрав 54% правильных решений. Это позволило стартапу уверенно опередить гиганта индустрии: ранее Google отчитывалась о результате в 45% для Gemini 3 Deep Think.
ARC-AGI, разработанный исследователем Франсуа Шолле, считается одним из самых трудных испытаний для ИИ. Тест проверяет не просто знания, а способность к абстрактному мышлению и решению принципиально новых задач.
Успех Poetiq обеспечен не обучением новой модели, а эффективной оркестрацией уже существующих.
poetiq.ai
✔️ Соавтор архитектуры Transformer выпустил модель для кодинга Rnj-1.
Стартап Essential AI, основанный Ашишем Васвани, представил модель с открытыми весами Rnj-1. При размере всего в 8 млрд. параметров, она демонстрирует топовые результаты в SWE-bench Verified. Rnj-1 набрала 20,8 балла, тогда как аналогичная по размеру Qwen 3 (8B) достигла лишь отметки в 4,5.
В основе новинки лежит архитектура Gemma 3. Разработчики намеренно отказались от упора на пост-трейн и RL. Вместо этого, команда сфокусировалась на качественном предобучении с использованием оптимизатора Muon. Веса базовой и instrust-версии доступны на HF.
essential.ai
✔️ NVIDIA представила крупнейшее обновление CUDA с 2006 года.
Вместе с релизом CUDA 13.1 компания запускает виртуальный набор инструкций для "тайлового" параллельного программирования. Новая парадигма абстрагирует низкоуровневые детали железа, позволяя писать алгоритмы более высокого уровня. CUDA Tile дает возможность оперировать блоками данных, автоматически оптимизируя выполнение под конкретные тензорные ядра и архитектуру памяти.
Фундаментом технологии стал CUDA Tile IR - промежуточное представление, аналогичное PTX, но заточенное под матричные операции. Это обеспечивает кросс-платформенность: написанный код будет эффективно работать на разных поколениях GPU без глубокого рефакторинга.
developer.nvidia.com
✔️ Grok 4.20 обыграл топовые модели в биржевой торговле.
Завершилось соревнование Alpha Arena Season 1.5, где участникам давали по $10 тыс. для автоматической торговли акциями США в течение двух недель. Grok 4.20 не только вышел в плюс, заработав $4 844 (общая доходность 12%), но и существенно опередил конкурентов.
GPT 5.1, Gemini 3.0 Pro и Claude Sonnet 4.5 завершили тот же период с отрицательными результатами. В режиме "осведомленности" Grok показал доходность около 50%. Эксперты полагают, что решающим фактором стал прямой доступ модели к данным платформы X. Анализ постов в реальном времени позволил алгоритму точнее оценивать рыночные настроения и тренды.
nof1.ai
@ai_machinelearning_big_data
#news #ai #ml
В линейку вошли флагманская GLM-4.6V на 106 млрд. параметров и облегченная GLM-4.6V-Flash (9B). Обе получили контекстное окно в 128k токенов и генерацию смешанного контента, где текст комбинируется с изображениями. Модель может передавать изображения и скриншоты во внешние инструменты без предварительной конвертации в текст, а также встраивать визуальные результаты обратно в цепочку рассуждений.
Обе модели уже на HuggingFace, доступны по API и в веб-версии.
z.ai
Команда Poetiq заняла 1 место в полузакрытом бенчмарке ARC-AGI-2, набрав 54% правильных решений. Это позволило стартапу уверенно опередить гиганта индустрии: ранее Google отчитывалась о результате в 45% для Gemini 3 Deep Think.
ARC-AGI, разработанный исследователем Франсуа Шолле, считается одним из самых трудных испытаний для ИИ. Тест проверяет не просто знания, а способность к абстрактному мышлению и решению принципиально новых задач.
Успех Poetiq обеспечен не обучением новой модели, а эффективной оркестрацией уже существующих.
poetiq.ai
Стартап Essential AI, основанный Ашишем Васвани, представил модель с открытыми весами Rnj-1. При размере всего в 8 млрд. параметров, она демонстрирует топовые результаты в SWE-bench Verified. Rnj-1 набрала 20,8 балла, тогда как аналогичная по размеру Qwen 3 (8B) достигла лишь отметки в 4,5.
В основе новинки лежит архитектура Gemma 3. Разработчики намеренно отказались от упора на пост-трейн и RL. Вместо этого, команда сфокусировалась на качественном предобучении с использованием оптимизатора Muon. Веса базовой и instrust-версии доступны на HF.
essential.ai
Вместе с релизом CUDA 13.1 компания запускает виртуальный набор инструкций для "тайлового" параллельного программирования. Новая парадигма абстрагирует низкоуровневые детали железа, позволяя писать алгоритмы более высокого уровня. CUDA Tile дает возможность оперировать блоками данных, автоматически оптимизируя выполнение под конкретные тензорные ядра и архитектуру памяти.
Фундаментом технологии стал CUDA Tile IR - промежуточное представление, аналогичное PTX, но заточенное под матричные операции. Это обеспечивает кросс-платформенность: написанный код будет эффективно работать на разных поколениях GPU без глубокого рефакторинга.
developer.nvidia.com
Завершилось соревнование Alpha Arena Season 1.5, где участникам давали по $10 тыс. для автоматической торговли акциями США в течение двух недель. Grok 4.20 не только вышел в плюс, заработав $4 844 (общая доходность 12%), но и существенно опередил конкурентов.
GPT 5.1, Gemini 3.0 Pro и Claude Sonnet 4.5 завершили тот же период с отрицательными результатами. В режиме "осведомленности" Grok показал доходность около 50%. Эксперты полагают, что решающим фактором стал прямой доступ модели к данным платформы X. Анализ постов в реальном времени позволил алгоритму точнее оценивать рыночные настроения и тренды.
nof1.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
GLM-4.6V - a zai-org Collection
We’re on a journey to advance and democratize artificial intelligence through open source and open science.