NEW BOT Телеграм, страница

Could an AI have conscious experiences? Answers to this question should be based not on intuition, dogma or speculation but on solid scientific evidence. However, I argue such evidence is hard to com...

68 views08:40

MLA

GPT-5.2 превзошла человека в тесте на бенчмарке ARC-AGI-2

Команда из шести бывших сотрудников Google DeepMind создала систему, которая превзошла человека в тесте на общий искусственный интеллект

Их стартап Poetiq показал результат 75 % на бенчмарке ARC-AGI-2

Для сравнения - люди в среднем решают 60 % задач этого теста

Система работает на основе модели GPT-5.2 X-High от OpenAI

Решение одной задачи обходится меньше чем в $8

Это на 15 процентных пунктов лучше, чем у прежнего лидера - той же GPT-5.2 X-High, но без дополнительной обработки

158 views12:04

MLA

Introduced software agents can self-improve via self-play RL

Self-play SWE-RL (SSR): training a single LLM agent to self-play between bug-injection and bug-repair, grounded in real-world repositories, no human-labeled issues or tests

Bug-injection: the agent creates a standard suite of bug artifacts, further validated for consistency

Key steps:
1) original tests must pass,
2) tests fail after applying the bug-injection patch,
3) weakened tests should pass

arXiv.org

Toward Training Superintelligent Software Agents through Self-Play SWE-RL

While current software agents powered by large language models (LLMs) and agentic reinforcement learning (RL) can boost programmer productivity, their training data (e.g., GitHub issues and pull...

68 views13:35

MLA

В 2026 у человечества появится «ментальный экзоскелет» – и вместе с ним новая тотальная уязвимость

Дегенеративный ИИ становится самым мощным усилителем интеллекта со времен появления языка

Сотни миллионов людей уже используют ChatGPT, Claude и Gemini как младших партнеров в работе и учебе

Но есть проблема
Наша «ментальная иммунная система» – набор защит от ошибок и манипуляций – формировалась миллионы лет
Мы умеем распознавать ложь по мимике, проверять логику аргументов, оценивать репутацию источника

ИИ производит идеально беглые, уверенные тексты, которые могут быть абсолютно неверными

У него нет ни лица, ни репутации, ни убеждений
Он просто завершает статистические паттерны в огромном пространстве данных

Новая работа "Epistemological Fault Lines Between Human and Artificial Intelligence" продолжает исследование понятия «эпистемия» (иллюзия знания или иллюзия достоверности») – опасного состояния, когда лингвистическая правдоподобность подменяет эпистемическую оценку, создавая ощущение знания без труда суждения

Критического мышления больше недостаточно

Нужна новая суперкомпетенция – эпистемическая грамотность: умение навигировать в мире, где суждения распределены между людьми и алгоритмами, где плавность речи отделена от надежности, а уверенность – от компетентности

Три практичных навыка эпистемической грамотности:
• Понимание "мыслительного конвейера" (что ИИ проверил, а что просто сгенерировал)
• Процедурные предохранители (правило "двух реальностей": текста и мира)
• Институциональные навыки (маркировка статуса утверждений в командах)

Это не теория
Это базовый навык "профессионального выживания" – как умение читать в XV веке или программировать в начале XXI

Читайте полный разбор здесь

arXiv.org

Epistemological Fault Lines Between Human and Artificial Intelligence

Large language models (LLMs) are widely described as artificial intelligence, yet their epistemic profile diverges sharply from human cognition. Here we show that the apparent alignment between...

664 views17:33

MLA

В 1960 году, австрийский математик Хайнц фон Фёрстер опубликовал в журнале Science свой зловещий прогноз под названием «Судный день. Пятница, 13 ноября 2026 года»

Его модель роста населения Земли, основанная на гиперболической зависимости P(t) = C/(t₀–t), предсказывала, что к означенной дате население Земли устремится к бесконечности

Расчёты, надо признать, выглядели убедительно: для 1970 года модель давала значение 3.770.000.000 человек против реальных 3.710.000.000

Однако в основе прогноза была заложена роковая ошибка — наивная вера в то, что социальные системы можно просто описать экстраполяцией прошлых трендов, игнорируя их способность к самоорганизации и нелинейным изменениям

Вместо предсказанного демографического взрыва мы столкнулись с тихим спадом. Население Земли даже не приблизилось к тем десяткам миллиардов, которые следовали бы из продолжения гиперболического тренда, и сегодня составляет около 8.300.000.000 человек

Коэффициент рождаемости упал ниже уровня простого воспроизводства (2.1 на ребенка-женщину) в большинстве стран, включая Россию и Европу

Тенденция затронула даже те регионы, где не применялись агрессивные программы контроля рождаемости

Корни проблемы глубже

Они — в урбанизации, росте образованности женщин и фундаментальном изменении экономических условий

Если раньше дети были дополнительными руками в доме, то сегодня они стали главной статьёй расходов

Карьера, поиск себя, жизнь отдельно от родителей и вечная проблема с жильём — всё это вместе и закрутило воронку, из которой сложно выбраться, чтобы завести семью
Так меры по планированию семьи, наложившись на глубокие социально-экономические сдвиги, стали частью процесса, приведшего к глобальному демографическому дисбалансу

Сегодня главный вызов — уже не призрак перенаселения, а реальность стареющих обществ, сокращающейся рабочей силы и пенсионных систем, несущих непосильную нагрузку
В условиях, когда фундаментальные основы общественного договора и личной безопасности становятся зыбкими, ждать демографического чуда наивно
А пустые призывы к «традиционным устоям» в такой реальности звучат не как решение проблемы, а как риторический жест, лишённый практического содержания

Ошибка Фёрстера — не просто забавный курьёз из истории науки
Это напоминание: будущее не предопределено ни гиперболами, ни пессимистическими прогнозами

2026-й не станет годом демографического апокалипсиса — он станет символом того, как реальность побеждает упрощённые модели

Математика незаменима для понимания возможных сценариев, но она бессильна там, где мы подменяем анализ механизмов слепым продолжением кривых

2026-й станет годом, когда в ребёнке перестанут видеть «угрозу устойчивого развития» или «обязательство по демографическому плану», и начнут создавать общество, в котором каждый новый человек будет желанным — не как будущий солдат, обезличенный налогоплательщик или «инвестиция» в пенсионную систему, а как единственная и неповторимая жизнь, ценная уже самим фактом своего существования

615 views07:12

MLA

Elibrary.ru открыла для пользователей портала поиск близких по тематике публикаций с применением нейросети SciRus-tiny, разработанной в Институте ИИ МГУ при поддержке научно-образовательной школы МГУ для анализа научных текстов

«Российские ученые теперь могут с помощью нейросетевой модели МГУ пополнять коллекции своих статей

Традиционно поиск в базах данных научной информации производится путем указания ключевых слов

Количество найденных документов и их состав сильно зависят от того, насколько точно подобраны ключевые слова

Нейросетевой поиск позволяет задать в качестве условия запроса аннотацию, полный текст научной статьи или даже подборки статей по интересующей тематике

Система автоматически подберет документы, максимально близкие по своей тематической направленности» - прокомментировал руководитель междисциплинарной группы проекта, заведующий кафедрой физического факультета МГУ

Подробнее — на сайте

В декабре 2023 года сотрудники лаборатории машинного обучения и семантического анализа Института ИИ МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny

С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов

59 views09:38

MLA

Люди сравнивают объекты по какому-то признаку

Математической моделью таких ситуаций является понятие «упорядоченного множества»

biblio.mccme.ru/node/316262

55 viewsedited 09:53

MLA

Рассказывают о самых важных событиях в мире Ml за прошедший год

С Новым годом вас, дорогие подписачники!

Языковые модели научили «‎рассуждать«»

Осенью 2024 года компания OpenAI представила языковую модель o1
Вместо мгновенного ответа o1 сначала формируовала рассуждения, а потом выдавала финальный результат

Механизм рассуждений позволяет моделям реже допускать фактологические ошибки, успешнее справляться с задачами, требующими долгосрочного планирования, и эффективнее работать с внешними инструментами, вроде поиска в интернете или среды выполнения кода
Во многом благодаря этому LLM смогли победить в олимпиадах по программированию и по математике

Появление механизма рассуждений также предложило выход из кризиса развития LLM — подробнее об этом и о рассуждающих моделях можно почитать в нашем материале, а узнать про модели DeepSeek можно здесь

От чат-ботов к ИИ-агентам

В этом году LLM использовали не только для чат-ботов, но и для Ml-агентов — программ, способных автономно выполнять многоэтапные задачи в цифровой среде

Агент может искать информацию в интернете и выделять главное, планировать путешествия от покупки билетов до развлекательной программы, создавать сайты и приложения с нуля, готовить презентации и отчёты

LLM не выполняет действия сама, а описывает, что нужно сделать
При составлении обзора литературы модель генерирует команду «Совершить поиск по запросу X»
Команда передаётся среде (например, браузеру), которая выполняет действие и возвращает результат в LLM для дальнейших шагов
Доступные действия называют инструментами (от англ. tool), действия выполняются в среде
Средой может выступать любое приложение
По сути, LLM является «мозгом» агента, планирующим решение задачу и пошагово управляющим выполнение этого плана

Значимость агентов — в росте продуктивности за счёт автоматизации
Агенты на базе современных моделей показывают результаты, сравнимые с экспертными, во многих практических задачах
Уже сейчас агенты способны использовать десятки разных инструментов, кооперироваться друг с другом и автономно работать в течение нескольких часов

Восприятие LLM пользователями и их разработчиками изменилось

С момента выхода ChatGPT-3.5 — первой широко известной LLM — прошло чуть больше трёх лет
За это время приложение ChatGPT стало самым быстрорастущим в истории, обогнав TikTok, и вошло в повседневную жизнь сотен миллионов людей

Благодаря непрерывному развитию больших языковых моделей грань между общением с человеком и чат-ботом становится всё менее заметной
Пользователям важно не только какую пользу приносит LLM, но и как она взаимодействует с ними
Всё больше людей воспринимает Ml-ботов как друзей, романтических партнёров или психологов

Показательный пример этого сдвига — выход GPT-5
После обновления OpenAI сделала недоступной предыдущую модель GPT-4o, что вызвало волну жалоб
Главное недовольство было связано с изменением стиля общения: GPT-5 отвечает более нейтрально. Некоторые пользователи описывали потерю доступа к GPT-4o как личную утрату, поскольку привыкли к её «личности»
Реакция оказалась настолько сильной, что компания вернула доступ к GPT-4o

Крупные разработчики LLM всё лучше осознают, что создают не просто инструмент для повышения продуктивности, а продукт, к которому люди могут эмоционально привязываться
Это можно эксплуатировать для наращивания аудитории и монетизации, но безответственный подход чреват серьезными репутационными потерями
Уже известны случаи, когда общение с ИИ-ботом могло привести к трагическим последствиям

Другая лидирующая компания, Anthropic, в этом году начала позиционировать свою модель Claude как «Thinking Partner» — не замену человека, а помощника, наиболее эффективного в коллаборации с ним
Также у компании вышло интервью со штатной профессиональной философиней, которая занимается разработкой идентичности и поведенческих паттернов Claude

Более подробный обзор главных новостей читайте на сайте

61 views18:23

MLA

US_12493732_B1_031-683-357-737-639.pdf

1 MB

США ещё в 2017 году тихо запустили программу SuperTools
Вместе с японцами они работали над совершенно другой технологией - сверхпроводниковыми AQFP-процессорами

В декабре 2025 года компания Synopsys получила патент на инструменты их массового производства
Работа финансировалась разведкой США через агентство IARPA

AQFP работают на той же классической логике (0 и 1), что и обычные процессоры
Но есть два колоссальных отличия: они в 20-30 раз быстрее современных чипов и потребляют в 10.000.000 раз меньше энергии
Всё это благодаря сверхпроводникам, работающим при температуре минус 269 градусов Цельсия

Патент Synopsys описывает методологию автоматизированного проектирования, которая превращает штучную разработку таких чипов в промышленный конвейер
Раньше каждый сверхпроводниковый процессор был уникальным проектом - теперь их можно штамповать как обычные микросхемы

С 2017 года США и Япония работали по этой программе без лишнего шума
К сегодняшнему дню уже созданы прототипы на частоте 3 ГГц
По оценкам экспертов, системы на 10-30 ГГц могут появиться к 2027-28 году, а полноценные 100 ГГц (цель программы SuperTools) - через пять-семь лет

Угроза здесь не в скорости одного чипа, а в возможности создавать массивные кластеры: благодаря минимальному энергопотреблению можно упаковать миллионы AQFP-процессоров в один криостат - то, что физически невозможно с обычными чипами
Такая огромная параллельная мощность превращает взлом RSA-2048 из "теоретически невозможного" в задачу на недели или месяцы —- а это основа защиты большей части секретной информации в мире

Все эти годы обсуждали, что именно квантовые компьютеры станут убийцами современного шифрования
Но перспективы квантовых технологий пока туманны - слишком много нерешённых проблем
О том, что AQFP-системы сделают это гораздо быстрее, почти никто не говорил

Не случайно Япония прямо сейчас разворачивает масштабную инфраструктуру для перехвата данных

В мае 2025 года приняли закон, разрешающий перехватывать весь иностранный интернет-трафик, который проходит через японскую территорию

А это практически все коммуникации между Америкой и Азией - включая Китай, Корею, Юго-Восточную Азию
Туда же попадает и значительная часть российского трафика с азиатскими серверами

Япония - это центральный хаб для подводных кабелей в Тихоокеанском регионе
Более двадцати станций приёма, через которые идут терабиты данных в секунду
В 2025-м начали строить ещё две новые станции. Запустили кабель SJC2 пропускной способностью 126 терабит в секунду, связывающий Сингапур, Китай и Японию
На цифровую безопасность инвестируют около $440.000.000

Параллельно создаются хранилища данных по аналогии с NSA Utah Data Center в США (АНБ), который может вмещать до тысячи экзабайт информации
Концепция проста: собирай зашифрованный трафик сейчас, расшифруешь потом - когда появятся необходимые системы

А ещё есть судно JS Muroto
Официально оно предназначено для "защиты подводных кабелей"
Но такое судно легко может устанавливать оборудование для перехвата прямо на кабельные линии - технология, которую АНБ использует десятилетиями

США и Япония работали над AQFP с 2017 года, получив восьмилетнюю фору
Догнать за 2-3 года нереалистично, но медлить нельзя - у России есть сильная школа сверхпроводников и возможность партнёрства с Китаем, при должных инвестициях разрыв преодолим

❤2

83 viewsedited 20:26

MLA

В.И. Арнольд
Таинственные математические троицы

«Я постараюсь рассказать о некоторых удивляющих меня явлениях в математике
(…)
Речь пойдёт об определённых наблюдениях, которые приводят к очень большому числу теорем и гипотез
(…)
Но интерес, который они представляют, состоит в общей точке зрения…»

63 views11:45

MLA

Конспект по LLM на русском языке:

– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения (а это редкость)
– RL – с нуля до обучения ризонинг-моделей
– Полноценный гайд по тому, как зафайнтюнить модель

6 глав и 50 страниц – идеальный объем, чтобы осилить за выходные и понять принцип работы современных моделей

Data Secrets

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

65 views13:20

MLA

Компания StorageReview вновь вернула себе мировую корону в гонке за числом π, вычислив его сразу до 314.000.000.000.000 знаков π за 4.3 МВт⋅ч

Рекорд был установлен не в облаке и не на распределённом кластере, а на одном коммерческом сервере
Запуск стартовал 31 июля 2025 года и завершился 18 ноября 2025 года, проработав 110 дней подряд без единой секунды простоя — что само по себе уже достижение уровня HPC

Для вычислений использовался сервер Dell PowerEdge R7725 форм-фактора 2U, оснащённый двумя процессорами AMD EPYC 9965 по 192 ядра каждый, то есть 384 ядра в сумме
В системе было установлено 1.5 ТБ DDR5 DRAM и 40 NVMe-накопителей Micron 6550 ION по 61.44 ТБ, что дало более 2.4 ПБ физического флеш-хранилища
Для работы y-cruncher было выделено 34 SSD, обеспечивших около 2.1 ПБ под временные данные, а ещё 6 SSD использовались в программном RAID10 для финальной записи результата

Само вычисление выполнялось с помощью y-cruncher v0.8.6.9545 на алгоритме Чудновского под Ubuntu 24.04 LTS Server

Чистое время расчёта числа π составило 8.793.223 секунды (примерно 101.8 дня), общее вычислительное время — 9.274.878 секунд, а полное «время по стене» от старта до финиша — 9.463.226 секунд
Самая крупная логическая контрольная точка достигала 850.538.385.064.992 цифр, а максимальное использование логического диска — 1.605 960.520.636.440 байт, то есть около 1.43 ПБ

Ключевым фактором рекорда стало хранилище
В конфигурации с 40 SSD платформа обеспечивала до 280 ГБ/с суммарной пропускной способности
По сравнению с предыдущим рекордом StorageReview на 202.000.000.000.000 цифр, последовательная запись выросла с 47 до 107 ГиБ/с, последовательное чтение — с 56.7 до 127 ГиБ/с, а чтение с «перешагиванием порога» увеличилось сразу на 383 % — с 20.9 до 101 ГиБ/с.
За время расчёта было прочитано около 148.4 ПиБ данных и записано 126.7 ПиБ, при этом износ SSD составил в среднем 7.3 ПБ на диск

Отдельного внимания заслуживает энергоэффективность

Средняя потребляемая мощность сервера составляла около 1.600 Вт, а общее энергопотребление за весь 314.000.000.000.000 расчёт — всего 4304.7 кВт⋅ч.

Это эквивалентно 13.7 кВт⋅ч на один триллион цифр π
Для сравнения, предыдущий рекорд на 300.000.000.000.000 цифр, выполненный на большом кластере с общим хранилищем, оценивался примерно в 33.600 кВт⋅ч, что в 7–8 раз больше

48 views14:58

MLA

Ученые из Университета Ватерлоо (Канада) впервые придумали способ безопасно сохранять и дублировать информацию в квантовых компьютерах

Раньше это считалось невозможным
Дело в том, что квантовую информация нельзя просто скопировать и вставить, как обычный файл

Это фундаментальный закон квантовой физики – теорема о невозможности клонирования (no-cloning theorem)
Она гласит, что невозможно создать механизм, который бы делал точную копию какого-либо квантового состояния

Обойти это удалось с помощью шифрования информации
Сначала квантовые данные зашифровывают, и только потом копируют
Причем делать это можно сколько угодно раз, но есть нюанс: когда одна копия расшифровывается, ключ шифрования тут же физически разрушается, и больше его использовать нельзя
То есть все копии вскрываются как бы одновременно

Если хотите разобраться в процессе подробнее: uwaterloo.ca/news/media/scientists-discover-first-method-safely-back-quantum

Oткрываются виды и на квантовое облачное хранение, и на распределенные квантовые системы

University of Waterloo

Scientists discover first method to safely back up quantum information

A team of researchers at the University of Waterloo have made a breakthrough in quantum computing that elegantly bypasses the fundamental “no cloning” problem.  Quantum computing is an exciting

387 views11:09

MLA

Сорок лет назад проходил курс по логическому (ЛП) и функциональному программированию (ФП) у очень взрослых преподавателей МИФИ

За эти годы мир изменился категорически, и я менялся вместе с ним, сохранив ядро знаний: формальную логику, резолюцию, работу с символьными знаниями…
Давно выйдя на стык дисциплин — нейросимвольную интеграцию — когда нейросеть распознаёт образы, а логическая система на Prolog делает объяснимый вывод, агентное моделирование — когда в NetLogo агенты взаимодействуют по правилам, похожим на логические протоколы (ломает стереотип, что Prolog — лишь для учебных задач), связь с теорией автоматов (весь «зоопарк» вычислительных моделей), с математической лингвистикой, с теми же монадами в ФП

Зачем это в эпоху нейросетей?
Логика есть основа мышления
Машинное обучение нуждается не только в данных, но и в смысле, в правилах, в способности объяснять свои решения
И здесь логическое программирование оказывается не реликтом, а инструментом

Курс 50-летней давности, который классика-классика и читался ещё Николаем Геннадьевичем Волчёнковым, который сам получил его в наследство от его учителей на кафедре 22 «Кибернетика» эволюционировал до математических моделей социальных процессов и построения управленческих коллективов и алгоритмы принятия ими решений

Объективизация и достоверность — логика, на основе которой строится история и узнается будущее

404 views08:43

MLA

Cтатья от MIT про дообучение моделей после деплоя

Фанфэкт: некоторые из авторов работают в OpenAI, так что читаем внимательно

Подход красиво назвали тюленем: SEAL – Self-Adapting Language Models

Суть тюленя в том, что модель учится извлекать из условных чатов информацию в таком виде, которая дообучит ее лучше всего
Звучит немного запутанно, поэтому разбираемся:

1. Модель получает на вход некоторый контекст и извлекает из него так называемые self-edit (SE)
Это структура, на которой модель дальше будет дообучаться (например, список следствий/импликаций из абзаца)

2. Таких SE генерируется много, а затем по каждому из них мы делаем мини-файнтюн и смотрим, какие SE улучшили знания модели лучше всего
Тестирование проходит на той же downstream-задаче (например, вопросах по абзацу без подсказки-абзаца в контексте)

3. Чем лучше SE обучил модель, тем больший reward он получает
Далее политика генерации self-edit обновляется так, чтобы в следующий раз SE были более и полезными

То есть модель как бы учиться выбирать наилучшую процедуру адаптации для самой себя
Красиво, да?

И работает неплохо
Из примера в статье: на бенчмарке SQuAD тюлень улучшил Qwen2.5-7B аж на 15 процентных пунктов
В сравнении, base model + дообучение на синтетике от сильной GPT-4.1 дает результат на пару процентов меньше, хотя разница в размере моделей «учителей» огромна

Есть, конечно, и парочка НО

Например:
– Это дорого
Одна оценка self-edit занимает примерно 30–45 секунд
750 итераций – это 6 часов на двух H100
Авторы предлагают это немного сгладить, применяя вместо мини-файнтюнингов Proxy reward, когда SE оценивает другая LLM
Это уже не так интересно, и метрики чуть хуже, но как вариант

– Для тестов требуется разметка
Хотя тут, опять же, можно генерировать

– Модели показывают деградацию на прошлых задачах по мере числа обновлений
Это частично лечится reward shaping, но полностью проблема не исчезает

Статья полностью здесь ->

https://arxiv.org/abs/2506.10943

arXiv.org

Self-Adapting Language Models

Large language models (LLMs) are powerful but static; they lack mechanisms to adapt their weights in response to new tasks, knowledge, or examples. We introduce Self-Adapting LLMs (SEAL), a...

359 views12:18

MLA

А_Н_Крылов,_"Прикладная_математика_и_техника".pdf

86.5 KB

348 views15:27

MLA

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

Я всегда говорю студентам, что для того, чтобы стать по-настоящему хорошим математиком, нужно быть ленивым

То есть вы смотрите на это и думаете: да, можно сразу взять, проинтегрировать, подставить значение и получить ноль

А можно на минутку отвлечься и подумать, есть ли какой-то трюк, который позволит получить ответ без лишних вычислений
И ответ — да, есть

51 views17:26

MLA

52 views02:54

MLA

Artificial Analysis представила обновленный рейтинг Ml-систем Intelligence Index 4.0.

Результаты показали неожиданную картину - разница между тремя ведущими моделями практически исчезла

По итогам измерений на первой строчке оказалась GPT-5.2 X-High от OpenAI

Однако её преимущество над Claude Opus 4.5 и Gemini 3 Pro настолько мало, что находится в пределах статистической ошибки

34 views08:02

MLA

Исследователи представили KernelEvolve — фреймворк, который использует LLM и поиск по графу для автоматической генерации высокопроизводительных ядер на языке Triton

Система применяет RAG (retrieval-augmented generation), чтобы подтягивать спецификации железа (NVIDIA, AMD и кастомные чипы MTIA), что позволяет оптимизировать как вычислительно тяжелые операции, так и задачи препроцессинга данных

Это стратегический сдвиг в AI-инфраструктуре, отвязывающий архитектуру модели от ограничений железа
Система достигла 100 % корректности на бенчмарке KernelBench и показала ускорение до 17× относительно PyTorch

Это доказывает, что агенты способны справиться с комбинаторным взрывом операторов и типов ускорителей, что критически важно для внедрения проприетарного кремния (MTIA), для которого у публичных LLM нет обучающих данных

https://arxiv.org/abs/2512.23236
https://arxiviq.substack.com/p/kernelevolve-scaling-agentic-kernel
https://triton-lang.org/
https://arxiv.org/abs/2502.10517

arXiv.org

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI...

Making deep learning recommendation model (DLRM) training and inference fast and efficient is important. However, this presents three key system challenges - model architecture diversity, kernel...

41 views15:48

MLA

Ещё одна электронная книга (небольшая) с визуализацией концепций ML
Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео)
Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети
Материал "начального уровня" (но удобно, что он тут собран)

https://ml-visualized.com/

58 viewsedited 19:12

About

Blog

Apps

Platform