Pro AI – Telegram
Нейросети любой архитектуры построены на перемножении матриц. Например, трансформеры из входного вектора создают (тоже перемножением) три матрицы, Q, K и V, которые затем несколько раз перемножаются на пути к получению выходного вектора. Именно умножение матриц с его кубической сложностью (если не прибегать к разного рода ухищрениям) занимает большую часть вычислительных мощностей.

Поэтому возникает естественное желание облегчить эту самую массивную часть вычислений и ускорить таким образом любую архитектуру. Периодически возникают новые подходы и идеи, тут расскажем о последней громкой статье по этой теме — Scalable MatMul-free Language Modeling.

Читать дальше
👍18
Механизм внимания в трансформерах дает большое преимущество — модель точно выбирает из контекста релевантные части. У этого механизма есть и довольно значимый недостаток — вычислительная сложность, которая квадратично возрастает в зависимости от размера входной последовательности. Одна из зацепок, которая может помочь облегчить работу вниманию — структура текста. Речь и про крупномасштабную структуру (вроде разделов, глав, параграфов), и про локальную структуру на уровне предложений.



Интуитивно понятно, что слова внутри одного предложения имеют друг к другу больше отношения, чем слова из далеких частей текста, хотя и далекие части осмысленного текста все же связаны. Это подтверждается и более строго — например, мы в свое время показали, что автокорреляция слов внутри одного текста убывает по степенному закону по мере отдаления друг от друга вне зависимости от языка. Причем неважно, “Дон Кихот” это или “Критика чистого разума”.

Может быть и такое, что мы, например, читаем книгу и вдруг понимаем, что этот момент встречался в какой-то другой главе. Но и тогда мы скорее всего обратимся сначала к содержанию, где найдем нужную главу, а затем уже в ней будем искать нужное предложение, а не просто листать назад всю книгу. То есть, даже обращаясь к далеким токенам, будем учитывать иерархическую структуру текста. Трансформеры же в основном воспринимают текст как единую плоскую массу.

Читать дальше
👍9🔥9
Авторегрессионные языковые модели, которые продолжают удивлять своими возможностями, занимают сейчас почти всё AI-пространство и забирают на себя почти всё внимание. В тени этого триумфа, однако, продолжают развиваться альтернативные подходы. Один из самых ярких — дискретные диффузионные модели для генерации текста. Понятно, что у авторегрессионных моделей множество принципиальных недостатков, которые вряд ли получится устранить в рамках той же архитектуры. Поэтому параллельно нужно не только совершенствовать этот подход, но и развивать совсем другие направления. Когда (или если) текущие триумфаторы упрутся в потолок своих возможностей, понадобится альтернатива.

Читать дальше про EDLM — диффузионные текстовые модели, которые впервые приблизились к авторегрессионным
👍10🔥3❤‍🔥1
Встретились как-то диффузионная модель и LLM — получилось Diffusion Forcing. Как оно устроено и зачем нужно?

“Встречу” придумали авторы из MIT, их идея была в том, чтобы попробовать объединить лучшее из двух, пока что редко пересекающихся, вселенных — диффузионных моделей с Full-Sequence Diffusion и нейросетей с Teacher Forcing. На пересечении этих названий и получилось Diffusion Forcing.

Принудительное обучение (teacher forcing) хорошо зарекомендовало себя в моделях, которые последовательно угадывают токены по одному, основываясь на предыдущей последовательности (она при этом считается опорной истиной). Таким способом получается генерировать, вообще говоря, бесконечное число токенов, если добавить сюда авторегрессию. При этом нет возможности каким-то образом направить выборку, чтобы, допустим, минимизировать какую-то дополнительную целевую функцию. И конечно, всё это хорошо работает только на дискретных данных, а на непрерывных быстро теряет устойчивость. Авторегрессионная генерация видео через несколько кадров начинает уходит куда-то не туда. Вероятно, поэтому авторегрессионая модель Cosmos от NVIDIA выдает не больше 32 кадров. Есть и другой подход, где последовательно генерируются не кадры, а всё лучшее разрешение, но об этом, возможно, расскажем отдельно.

Читать дальше
4👍3🔥3
Не горе от ума, а ум от голода — откуда LLM такие умные

Когда большие языковые модели начали неожиданно хорошо отвечать на абсолютно разные вопросы и даже вроде бы выходить за те рамки, на которых их обучали, все, конечно, сильно обрадовались. Настолько обрадовались, что наращивать мощности и получать новые крутые результаты оказалось интереснее, чем выяснять, почему вообще LLM работают, как именно они хранят знания и хранят ли их вообще. Этот вопрос интерпретируемости LLM так или иначе стоял всегда, но теперь, когда мы все попривыкли к впечатляющим результатам новых моделей, стал заметнее.

Макс Тегмарк предложил использовать механистический подход к интерпретируемости, но применять его не к алгоритмам внутри LLM, а к самим знаниям. То есть попробовать выяснить, есть ли внутри моделей какая-то закономерность запоминания или даже понимания. Сразу спойлер (а на самом деле — название статьи) — модели умны от “голода”, это “intelligence from starvation”. Причем это общий вывод для разных моделей.

Читать дальше
👍8🤔5🔥1
Как мы сделали всевидящее ВеКо — систему отслеживания внимания сотрудников досмотра в аэропорту

Система отслеживания внимания создавалась под конкретную задачу — для одного из московских аэропортов. Там, на досмотровых постах, операторы смотрят на экраны интроскопов, проверяя багаж. Работа монотонная, требующая постоянной концентрации, а отвлечение — потенциальный риск для безопасности. Нужно было понять, когда человек действительно теряет фокус: отвернулся, задремал, отвёл взгляд или вообще вышел из поля зрения камеры.

На старте у нас был базовый прототип на MediaPipe, оставшийся от научной работы по смежной тематике определения утомления оператора. Этот фреймворк хорошо справляется с задачами вроде отслеживания поз, рук, контрольных точек на лице. Но для точного анализа взгляда он оказался не слишком подходящим. Мы пробовали построить 3D-направление взгляда по ключевым точкам и вычислить угол относительно монитора — чтобы определить, смотрит ли человек туда, куда должен. Однако результаты оказались недостаточно точными и медленно обновлялись. Направление головы он определял хорошо, но оно не всегда совпадает с направлением глаз — а нам нужен именно взгляд. Возможно, при более высоком разрешении камеры можно было бы добиться лучшего качества, но на практике пришлось искать другие решения.

Читать дальше
🔥85😨4🤔3👍1
В MIT создали первую “периодическую таблицу” методов машинного обучения, при которых в исходных данных не задаются конкретные признаки (representation learning). Оказывается, многие (а может оказаться, что и все) методы, даже совсем друг на друга не похожие, сводятся по существу к одной и той же формуле. Причем не слишком сложной по своей форме. Работу представили в конце апреля на конференции ICLR 2025.

Читать дальше
🔥15🤯8🤔1
Две мысли: во-первых, коллективное решение задачи имеет больше шансов на успех, чем одиночное; во-вторых, внутри коллектива лучше разделяться на группы, а не работать всем над одной задачей. Обе мысли кажутся очевидными, если мы говорим про людей. Оказывается, то же верно и для LLM в задаче разработки инноваций.

Группа авторов из IT University (Дания), университета Бордо и Microsoft поставили перед собой задачу исследовать процесс инновационного творчества у LLM. Авторы вдохновлялись процессом развития человеческой культуры, которую можно описать так: люди комбинируют между собой некоторые существующие элементы и какие-то из этих комбинаций оказываются удачными или становятся основой для следующих инноваций. При этом важно, что каждое новое поколение не начинает процесс с нуля, а опирается на уже накопленный опыт прошлых комбинаций — это отличает человеческую культуру от других животных.

В таком описании процесс инноваций похож на игру в алхимика, в которой из 4 базовых элементов (огонь, земля, вода и воздух) путем комбинаций игрок должен получить сотни различных объектов. Комбинации не случайны, а соответствуют некоторым представлениям о мире: например, “огонь” + “вода” = “пар”. Эту популярную игру уже использовали для изучения исследовательского поведения людей. Авторы статьи решили применить этот же метод для LLM.

Читать дальше
🔥9👍42
Внимание! Механизм внимания в трансформерах, который уже много лет “is all we need”, оказывается не таким уже незаменимым.

Это, конечно, не очень правдивый заголовок, но зато привлекает внимание. На самом деле речь пойдет о различных попытках заменить или хотя бы облегчить механизм внимания в трансформерах. Он во многом обеспечил успех моделей последних лет, но он же остается одним из узких мест. Дело в квадратичной сложности вычислений, из-за которой приходится ограничивать размеры входной последовательности. Ну и вообще, несмотря на все преимущества внимания, хотелось бы, чтобы оно, как основной двигатель моделей, было более экономично.

Читать далее
👍92🙈1
Как заставить ИИ писать по-человечески — атака от противного

В синем углу ринга — детекторы ИИ. В красном углу ринга — мы, по крайней мере, на ближайшие 10 минут прочтения этого текста. Как обойти детекторы, которые обнаруживают текст, написанный ИИ? Как учит нас любой голливудский боевик — нужно найти слабое место противника. Исследователи из Университета Цинхуа предполагают, что нашли такое место, и, соответственно, нашли способ пробить эту уязвимость.

Идея в следующем — детекторы просто знают слова, которые чаще всего используют GPT и другие модели. Честно сказать, мы все и сами уже эти шаблоны хорошо выучили за последние пару лет. Например, иронично, но один из таких признаков — длинное тире, и тут вы его часто встретите. Но это авторский стиль, ИИ ни при чем — честно. Так вот существующие способы обхода детекторов разными путями пытаются заставить LLM выдавать более человекоподобные тексты. Можно обучить отдельную нейросеть перефразировать текст, можно на входе просить сеть “пиши как живой человек”, можно пословно просеивать текст и заменять типичные ИИ-слова на что-то более общепринятое.

Читать дальше
🔥9
Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Все привыкли к тому, что ChatGPT, DeepSeek, Llama и другие коммерческие LLM способны быстро и умеренно качественно генерировать текст практически любого стиля и содержания. Однако, потенциал использования языковых моделей давно не ограничивается лишь пресловутым копирайтингом и написанием курсовых за одну ночь. Современные модели‑трансформеры всё чаще демонстрируют эмерджентные способности, выражающиеся в их способности к сложному пошаговому рассуждению.

Само устройство этих «рассуждений» (англ. reasoning) забавно перекликается с гипотезой лингвистической относительности Сепира‑Уорфа. Её строгая версия предполагает, что человеческое мышление является формой «внутреннего монолога». Но если наш мозг оказался устроен несколько сложнее, чем думали Сепир и Уорф, то в случае с LLM всё буквально так — модель рассуждает, когда «говорит», т. е. генерирует текст.

На текущий момент мы уперлись в потолок развития LLM привычным путём. Данные для их обучения кончились ещё год назад, а продолжать наращивать и без того огромные вычислительные мощности попросту нет смысла. Поэтому самым перспективным направлением разработок в области ИИ выступает развитие того самого reasoning — умения модели рассуждать.

И хотя за последние полгода появилось множество систем, сделавших большой шаг в сторону продвинутого reasoning (например, DeepSeek R1, о1 от OpenAI), тестируются они всё так же — на математике, шахматных задачках и головоломках. А вот насколько хорошо они справляются с задачами в сфере права или, скажем, комплексного текстуального анализа никто не знает — в большинстве бенчмарков полностью игнорируется способность LLM рассуждать в плоскости гуманитарного знания.

Читать дальше
🔥13
ИИ против русского налогового права: тестируем топовые reasoning LLM на RuTaR.

В прошлой статье мы рассказали о RuTaR — большом открытом датасете на русском языке, разработанном для оценки способностей LLM к рассуждению в сфере налогового права. Среди прочего, мы тогда запустили серию тестов, чтобы выяснить, как сильные модели справляются с задачами, требующими логического вывода с использованием RAG или без него, в варианте “из коробки”.

Однако, как вполне справедливо отметили некоторые читатели, мы не протестировали "настоящие" reasoning-модели — те, что спроектированы специально для выполнения сложных логических рассуждений, и занимают верхние строчки в соответствующих бенчмарках.

Мы решили исправиться.
🔥4👏1
Заново изобретая вертолёт: как мы сделали дрон для полётов внутри помещений

Почему летает вертолет? Он поднимается вверх за счёт подъёмной силы винта — это ясно. Ещё в своих набросках Леонардо да Винчи описал подобный принцип, а спустя полторы тысячи лет, в 1907 году, французский инженер Поль Корню впервые поднялся на такой машине на целых 30 сантиметров над землей и зависнул там на целых несколько секунд — прорывное достижение для того времени.
Но почему современный вертолёт, который мы знаем, может не просто зависать, а лететь управляемо? Всё дело в том, что в нём можно менять угол наклона лопастей главного ротора: они не зафиксированы под постоянным углом, а поворачиваются, становясь более пологими или крутыми по отношению к встречному потоку.

Решил эту сложную инженерную задачу студент Императорского Московского технического училища (ныне МГТУ им. Баумана) Борис Юрьев в 1911 году. Ради справедливости тут небольшая оговорка: первенство Юрьева в этом вопросе вроде бы общепризнано, особенно в русскоязычной литературе, но есть и другие мнения: в патенте того же самого Поля Корню тоже описывается механизм наклона винтов, уже довольно близкий к автомату перекоса Юрьева. Правда, Корню после удачного полета переключился на велосипеды, а Юрьев посвятил вертолетостроению всю жизнь.

Читать дальше
👍9
HRM — миниатюрная модель, которая легко решает задачи ARC-AGI

В конце июля вышла статья с описанием новой архитектуры для reasoning-моделей — Hierarchical Reasoning Model (HRM). В её основе — двухуровневая рекуррентная система с «быстрой» и «медленной» частями. Первая, рабочая, отвечает за мелкие и детальные вычисления, вторая — за что-то вроде выработки стратегии. Модель невероятно маленькая — всего 27 миллионов параметров. Это настолько мало, что в комментариях постоянно спрашивают: не опечатка ли это? Нет, не миллиардов — миллионов. HRM демонстрирует отличные результаты на задачах из Abstraction and Reasoning Corpus (ARC), который считается основным бенчмарком для AGI. Модель также легко решает судоку и проходит лабиринты, на которых модели с классическим chain of thought проваливаются.

Читать дальше
🔥9👍21
Хоть кота пивом обольем (с)

Congratulations once again on the acceptance of the paper "Zipf’s and Heaps’ Laws for Tokens and LLM-generated Texts" (Paper ID: 2780) to EMNLP Findings!
👏1
В жизни мне повезло близко общаться с большим количеством больших учёных, Александр Николаевич - один из наиболее масштабных среди них, как человек. Его молодость была чрезвычайно трудна и прошла под давлением советских политических репрессий. Обосновавшись в Красноярске, он стал основателем одной из самых интересных, хотя и тоже трагичных, школ в советской науке о нейросетях. Достаточно сказать, что в его группе бэкпроп был придуман независимо и почти одновременно с Хинтоном. Сам он доказал важные варианты свойства универсальной аппроксимации и все 90-е годы продвигал в России нейрокомпьютинг. К сожалению, время опять было не очень к этому располагающим. Александр Николаевич был, наверное, самым недореализованным из больших учёных, которых я знал лично.

Я долго с ним договаривался, чтобы он у нас на семинаре рассказал про раннюю историю нейросетей в СССР и России. Около этого нового года мы опять с ним об этом договорились, но сбыться этому не было суждено.

Вечная память
В возрасте 73 лет из жизни ушел выдающийся российский ученый, член правления Международной ассоциации нейроинформатики Александр Горбань.

Он разработал корректоры ошибок и уязвимостей ИИ, а также систему методов для ускоренного обучения нейронных сетей. 20 лет он работал в Университете Лестера в Великобритании, в 2024 году вернулся в Россию, где возглавил лабораторию ИИ, анализа данных и моделирования Центрального университета и AIRI.
9🫡5💔3
А кто-нибудь ещё на EMNLP приехал уже?
Русскоязычное сообщество на EMNLP на удивление приятное и большое. На фотографии - лишь небольшая его часть, вовремя добежавшая до 1 этажа :)
👍14🔥3
Pro AI
Русскоязычное сообщество на EMNLP на удивление приятное и большое. На фотографии - лишь небольшая его часть, вовремя добежавшая до 1 этажа :)
И о затесавшихся на EMNLP блогерах, по следам комментариев :) оказалось, что сразу несколько интересных людей с конференции ведёт телеграмм-каналы. Удалось организовать эти каналы в папку - enjoy :)
https://news.1rj.ru/str/addlist/imYeuS1xJxw2MmU6