Сижу себе спокойно, пишу ревью на препринты, поданные на ICLR 2026... как вдруг один из них внезапно приоткрывает предо мною настоящую бездну в виде блок-схемы на рис. 1 (в статье это тоже Fig.1).
Как вам такой пайплайн, друзья? Рекомендую вглядеться в картинку повнимательнее, особенно в правую её часть. Через какое-то время вглядывания вам начнет казаться, что картинка тоже в вас вглядывается - механическими глазами диффузионного генератора. #генерация
Как вам такой пайплайн, друзья? Рекомендую вглядеться в картинку повнимательнее, особенно в правую её часть. Через какое-то время вглядывания вам начнет казаться, что картинка тоже в вас вглядывается - механическими глазами диффузионного генератора. #генерация
1😁125 57💊11 10 5😱2💩2💯2 2👏1 1
ГИГАНТЫ В СКАЗАНИЯХ И МИФАХ ДРЕВНИХ ЦИВИЛИЗАЦИЙ
МГУ им. М.В. Ломоносова
https://www.elibrary.ru/item.asp?id=67961036
Замдекана факультета искусств МГУ решил поведать нам о великанах с планеты Нибиру в свежей научной статье 2024 года:
Из текста работы:
Более того, журнал входит в Белый Список, одобренный РАН, а также в список ВАК. То есть буквально 3 таких статьи о великанах с планеты Нибиру и можно становиться кандидатом наук.
МГУ им. М.В. Ломоносова
https://www.elibrary.ru/item.asp?id=67961036
Замдекана факультета искусств МГУ решил поведать нам о великанах с планеты Нибиру в свежей научной статье 2024 года:
Из текста работы:
Проведенный поиск и анализ информации позволяет судить о существовании в далеком прошлом на Земле великанов.
В «Списке шумерских царей» сказано, что царь Гильгамеш появился с планеты под названием Нибиру.
Длина его тела в этот период приблизительно в два раза меньше взрослого льва (1,7–2,5 м). Следовательно, между грудью и окончанием таза Гильгамеша должно быть расстояние порядка 1 м. У современного мужчины ростом 175–180 см этот промежуток равен 40–45 см. Таким образом, Гильгамеш должен быть не менее чем трехметровым великаном.
Даже с учетом прогресса за прошедшие сто лет можно констатировать, что возможности древних “богов” как минимум в сотни раз превосходили наши современные возможности».
Более того, журнал входит в Белый Список, одобренный РАН, а также в список ВАК. То есть буквально 3 таких статьи о великанах с планеты Нибиру и можно становиться кандидатом наук.
Недавно досмотрела интервью с Neel Nanda от ведущего 80.000 hours podcast в двух частях (подкаст на английском, но в роликах есть субтитры хорошего качества для тех, кому тяжело воспринимать английский на слух):
1. https://www.youtube.com/watch?v=5FdO1MEumbI
2. https://www.youtube.com/watch?v=MfMq4sVJSFc
Neel Nanda - тимлид команды interpretability в Deep Mind, выпускает много статей, которые я регулярно читаю, и некоторые из которых попадают ко мне на ревью на различные конференции. Хороший челикс, говорит разумные вещи. В первой части интервью он рассказывает об интерпретируемости LLM в целом, об AI Safety, какие существуют задачи и подходы к ним там и там и зачем все это нужно, упоминает ключевые научные статьи и посты по этим темам. Данную часть будет полезно посмотреть в том числе и тем, кто еще ничего не знает про эти области для того, чтобы войти в курс дела. Во второй части интервью Neel рассказывает про свою жизнь и дает советы ресерчерам о том, как делать хороший ресерач. В общем, рекомендую ознакомиться всем, у кого есть лишние 4 с половиной часа свободного времени.😉
#подкасты
1. https://www.youtube.com/watch?v=5FdO1MEumbI
2. https://www.youtube.com/watch?v=MfMq4sVJSFc
Neel Nanda - тимлид команды interpretability в Deep Mind, выпускает много статей, которые я регулярно читаю, и некоторые из которых попадают ко мне на ревью на различные конференции. Хороший челикс, говорит разумные вещи. В первой части интервью он рассказывает об интерпретируемости LLM в целом, об AI Safety, какие существуют задачи и подходы к ним там и там и зачем все это нужно, упоминает ключевые научные статьи и посты по этим темам. Данную часть будет полезно посмотреть в том числе и тем, кто еще ничего не знает про эти области для того, чтобы войти в курс дела. Во второй части интервью Neel рассказывает про свою жизнь и дает советы ресерчерам о том, как делать хороший ресерач. В общем, рекомендую ознакомиться всем, у кого есть лишние 4 с половиной часа свободного времени.
#подкасты
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
We Can Monitor AI’s Thoughts… For Now | Google DeepMind's Neel Nanda
We don’t know how AIs think or why they do what they do. Or at least, we don’t know much. That fact is only becoming more troubling as AIs grow more capable and appear on track to wield enormous cultural influence, directly advise on major government decisions…
❤41 9🖕7🔥3 3🎉1💩1 1
Forwarded from hello cyberkitty
Когда нейросеть ошибается, она становится собой
Есть, пожалуй, единственный более-менее надёжный способ понять, с какой нейросетью ты работаешь — если это не указано прямо.
Надо просто посмотреть, где и как она ошибается.
Правильные ответы у всех примерно одинаковы.
А вот ошибки — как отпечатки пальцев: свои, неповторимые, иногда гениальные, иногда пугающие.
Вот пример.
Есть старая, добротная модель для транскрипции — Whisper от OpenAI.
Открытая, простая, и почти все транскрибаторы работают на ней. (даже встроенная в телеграм расшифровка голосовых)
Если загрузить в неё тишину и попросить “распознать русский текст” — она начнёт выдавать нечто странное.
Сначала «Продолжение следует».
Потом — «Субтитры предоставил Дима Торжок».
Такой вот призрак из обучающего датасета.
Где-то в архивах интернета, вероятно, действительно жил этот Дима Торжок, добросовестно делавший субтитры.
И теперь его имя навечно вписано в машинную память, как цифровая подпись эпохи фанатских озвучек.
Происходит это из-за того, что модель не знает, что ответить.
Она хватается за случайные шаблоны из плохо размеченных данных — и выстреливает куском прошлого.
Недавно, кстати, у GPT-5 нашли похожие “фантомы”: при определённых триггерах она начинает цитировать китайские порносайты и казино🤣
Намедни я перевёл свой транскрибатор на новую систему — на мультимодальный Gemini.
Теперь это не классическая модель распознавания речи, а полноценная языковая модель, которая просто понимает звук и описывает его словами.
И, конечно, я не удержался и проверил: что она скажет на тишину.
И она сказала.
Каждый раз — одно и то же:
«В 1998 году, когда я был в Москве, я встретил одного человека, который сказал мне:
„Знаешь, я думаю, что в России есть два типа людей: те, кто верит в Бога, и те, кто верит в меня.“»
Я искал источник — не нашёл.
Ни цитаты, ни автора.
Просто голос, который говорит из пустоты.
Есть, пожалуй, единственный более-менее надёжный способ понять, с какой нейросетью ты работаешь — если это не указано прямо.
Надо просто посмотреть, где и как она ошибается.
Правильные ответы у всех примерно одинаковы.
А вот ошибки — как отпечатки пальцев: свои, неповторимые, иногда гениальные, иногда пугающие.
Вот пример.
Есть старая, добротная модель для транскрипции — Whisper от OpenAI.
Открытая, простая, и почти все транскрибаторы работают на ней. (даже встроенная в телеграм расшифровка голосовых)
Если загрузить в неё тишину и попросить “распознать русский текст” — она начнёт выдавать нечто странное.
Сначала «Продолжение следует».
Потом — «Субтитры предоставил Дима Торжок».
Такой вот призрак из обучающего датасета.
Где-то в архивах интернета, вероятно, действительно жил этот Дима Торжок, добросовестно делавший субтитры.
И теперь его имя навечно вписано в машинную память, как цифровая подпись эпохи фанатских озвучек.
Происходит это из-за того, что модель не знает, что ответить.
Она хватается за случайные шаблоны из плохо размеченных данных — и выстреливает куском прошлого.
Недавно, кстати, у GPT-5 нашли похожие “фантомы”: при определённых триггерах она начинает цитировать китайские порносайты и казино
Намедни я перевёл свой транскрибатор на новую систему — на мультимодальный Gemini.
Теперь это не классическая модель распознавания речи, а полноценная языковая модель, которая просто понимает звук и описывает его словами.
И, конечно, я не удержался и проверил: что она скажет на тишину.
И она сказала.
Каждый раз — одно и то же:
«В 1998 году, когда я был в Москве, я встретил одного человека, который сказал мне:
„Знаешь, я думаю, что в России есть два типа людей: те, кто верит в Бога, и те, кто верит в меня.“»
Я искал источник — не нашёл.
Ни цитаты, ни автора.
Просто голос, который говорит из пустоты.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤145 68😁21 20🔥12👏5👻5❤🔥4👀4 3 1
Сегодня мне на почту пришел необычный спам (рис. 1). Интересно, кто-нибудь ещё с таким сталкивался? Кто пишет подобные письма и на что они вообще рассчитывают? 🤔
Пояснение: Endorsement - это когда исследователь, который сам опубликовал несколько статей в какой-то категории (в данном случае, computer science: computation and language) на arxiv.org, должен "поручиться" за работу новичка, чтобы тот был допущен к публикации своей первой работы в этой же категории. По сути, кто-то из научного сообщества с опытом публикаций говорит "этот чел норм, и его работа соответствует минимальным стандартам архива". Однако, что в данном письме чел даже не дал ссылку на свою работу, а просто втупую попросил меня (то есть, незнакомого человека) одобрить неизвестно что. Поэтому я и недоумеваю, на что он вообще надеялся
Пояснение: Endorsement - это когда исследователь, который сам опубликовал несколько статей в какой-то категории (в данном случае, computer science: computation and language) на arxiv.org, должен "поручиться" за работу новичка, чтобы тот был допущен к публикации своей первой работы в этой же категории. По сути, кто-то из научного сообщества с опытом публикаций говорит "этот чел норм, и его работа соответствует минимальным стандартам архива". Однако, что в данном письме чел даже не дал ссылку на свою работу, а просто втупую попросил меня (то есть, незнакомого человека) одобрить неизвестно что. Поэтому я и недоумеваю, на что он вообще надеялся
🍌53 31😁29❤1💩1
Мы с коллегами некоторое время назад заинтересовались вопросом интерпретируемости аудио трансформеров и даже сделали целую научную работу на эту тему (но она, к сожалению, пока что не опубликована). В связи с этим мне и попалась на глаза статья "AND: Audio Network Dissection for Interpreting Deep Acoustic Models" ( https://arxiv.org/abs/2406.16990v2 ), в которой я сейчас разбираюсь.
В ней авторы исследуют, за распознавание каких концептов отвечают отдельные нейроны в звуковых моделях AST (Audio Spectrogram Transformer) и BEATs (Bidirectional Encoder representation from Audio Transformers), дообученных на задачу классификации датасета ESC50 со звуками окружения, разбитыми на 50 классов (таких, как шум дождя, тиканье часов, кукареканьеревьюера номер 2 петуха и другие). В дополнительных экспериментах также рассматривается датасет GTZAN Music Genre с 10 жанрами музыки.
Для интерпретации нейронов моделей авторы используют как заранее заданные концепты из самого ESC50, так и новые, заранее неизвестные концепты, выделенные с помощью SALMONN (аудио-модель, генерирующая текстовые описания для аудио) и LLaMA (используется, чтобы суммаризовать и выделять общее в этих описаниях). В первом сценарии, они просто смотрят, какие нейроны сильнее всего активируются на аудио из каждого заданного класса. Во втором сценарии процесс идет как бы в обратном направлении: сначала для каждого нейрона они находят такие примеры аудио из датасета, на которых его активации максимальны и такие, на которых его активации минимальны. Затем создают текстовые описания этих примеров, суммаризируют их и калибруют: то есть, оставляют только те признаки, которые уникальны для примеров с высокой активацией нейрона (а те признаки, которые есть одновременно и у высоко-, и у низкоактивированных примеров, удаляют как неинформативные). В результате для каждого нейрона получают набор уникальных акустических признаков, на которые он реагирует - например, один нейрон может быть настроен на "громкие высокие повторяющиеся" звуки, другой на "тихие низкие монотонные".
Проанализировав выделенные концепты, авторы сделали вывод, что нейроны в исследованных моделях реагируют в основном на простые акустические признаки (громкость, высота тона), а не на абстрактные концепции типа эмоциональной окраски. Также они отметили, что модель BEATs, предобученная self-supervised методом, имеет более полисемантичные нейроны (реагируют на много разных признаков сразу), а у supervised AST нейроны более специализированы (особенно в глубоких слоях) и поэтому легче интерпретируются.
Кроме того, авторы делают unlearning разных типов звуков, чтобы убедиться, что найденные ими нейроны действительно кодируют нужную информацию. Так, меня позабавило, что когда они удаляют нейрон, отвечающий за распознавание "капанья воды", качество распознавания звука смыва туалета тоже пострадало (как, впрочем, и остальных звуков, связанных с водой).
—
К сожалению, авторы не изучают модели для распознавания речи типа Whisper, HuBERT или Wav2Vec2, поэтому остается открытым вопрос: находили ли ранее в таких моделях нейроны-детекторы отдельных фонем, эмоций спикера или других концепций, связанных с речью? Мне такие статьи не попадались, но может быть, кто-то из читателей на них натыкался?
#объяснения_статей
В ней авторы исследуют, за распознавание каких концептов отвечают отдельные нейроны в звуковых моделях AST (Audio Spectrogram Transformer) и BEATs (Bidirectional Encoder representation from Audio Transformers), дообученных на задачу классификации датасета ESC50 со звуками окружения, разбитыми на 50 классов (таких, как шум дождя, тиканье часов, кукареканье
Для интерпретации нейронов моделей авторы используют как заранее заданные концепты из самого ESC50, так и новые, заранее неизвестные концепты, выделенные с помощью SALMONN (аудио-модель, генерирующая текстовые описания для аудио) и LLaMA (используется, чтобы суммаризовать и выделять общее в этих описаниях). В первом сценарии, они просто смотрят, какие нейроны сильнее всего активируются на аудио из каждого заданного класса. Во втором сценарии процесс идет как бы в обратном направлении: сначала для каждого нейрона они находят такие примеры аудио из датасета, на которых его активации максимальны и такие, на которых его активации минимальны. Затем создают текстовые описания этих примеров, суммаризируют их и калибруют: то есть, оставляют только те признаки, которые уникальны для примеров с высокой активацией нейрона (а те признаки, которые есть одновременно и у высоко-, и у низкоактивированных примеров, удаляют как неинформативные). В результате для каждого нейрона получают набор уникальных акустических признаков, на которые он реагирует - например, один нейрон может быть настроен на "громкие высокие повторяющиеся" звуки, другой на "тихие низкие монотонные".
Проанализировав выделенные концепты, авторы сделали вывод, что нейроны в исследованных моделях реагируют в основном на простые акустические признаки (громкость, высота тона), а не на абстрактные концепции типа эмоциональной окраски. Также они отметили, что модель BEATs, предобученная self-supervised методом, имеет более полисемантичные нейроны (реагируют на много разных признаков сразу), а у supervised AST нейроны более специализированы (особенно в глубоких слоях) и поэтому легче интерпретируются.
Кроме того, авторы делают unlearning разных типов звуков, чтобы убедиться, что найденные ими нейроны действительно кодируют нужную информацию. Так, меня позабавило, что когда они удаляют нейрон, отвечающий за распознавание "капанья воды", качество распознавания звука смыва туалета тоже пострадало (как, впрочем, и остальных звуков, связанных с водой).
—
К сожалению, авторы не изучают модели для распознавания речи типа Whisper, HuBERT или Wav2Vec2, поэтому остается открытым вопрос: находили ли ранее в таких моделях нейроны-детекторы отдельных фонем, эмоций спикера или других концепций, связанных с речью? Мне такие статьи не попадались, но может быть, кто-то из читателей на них натыкался?
#объяснения_статей
arXiv.org
AND: Audio Network Dissection for Interpreting Deep Acoustic Models
Neuron-level interpretations aim to explain network behaviors and properties by investigating neurons responsive to specific perceptual or structural input patterns. Although there is emerging...
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Про гороскопы в ML
2.5 — 5 трлн 😱 рублей в год — оценивается российский рынок эзотерических услуг.
Обращающихся к магам, гадалкам, таролагам, бабкам-шептуньям и экстрасенсам — многие миллионы наших сограждан.
Очевидно, есть среди них и манагеры.
В старинные времена, когда модели в банках делались на SASе, внушавшая ужас и трепет директриса одного из департаментов приперла начальника DSов к стенке вопросом:
Поскольку отшутиться не вышло, срочно был затребован «самый опытный синьор» которому было поручено в кратчайшие сроки такую фичу в модели PD добавить.
Вот только в Банках часто есть отдел / управление валидации, которые в прод не пропустят модель с незначимой фичей.
На следующий день бодрый синьор пришел к директрисе с докладом что «гороскоп не работает».
В ответ узнал о себе много нового.
В канале мы не раз разбирали насколько для успеха критичны знания в доменной области, а он ими обладал примерно на уровне картинки, которую GPT нарисовал к посту.
Что было вскрыто прямыми вопросами вроде «сколько у нас асцендентных Дев в департаменте?» и «у какого числа клиентов шестой дом в Водолее?». ♋️♉️♐️♏️♍️♌️♈️♉️♑️♒️♓️
Покрытый позором, синьор ушел ботать матчасть, перепроверять куда как больше фичей — к Зодиаку добавил еще и восточный гороскоп, а заодно и нумерологию.
Дедлайн был совсем близко, и одна из последних фичей — нумерологическая, сработала. Хорошо так сработала!
Разгадка пришла через несколько дней, после анализа всех доступных числовых полей по апликантам.
В те годы важным полем в заявке на кредит был рабочий телефон — и вписать можно было только городской.
А что делать тем, у кого нет работы?
Особенно если в других полях заявитель указал что работа у него есть, ООО « Лабеан », например? (Про такие названия компаний есть пост для любителей )
МГТС же не продаст просто номер, он должен быть подключен по адресу.
А вот Манго (совершенно законно, кстати) продаст.
Вот только номера эти будут из одного пула, и, возможно, короткоживующие.
То есть одним номером воспользуются многие аппликанты.
По итогам Банк прикрыл значимый канал фрода, перестав терять кучу денег.
Как говорила одна прожженная каналья-манагер в таких случаях: «счет на табло!».
Btw, даже самые странные идеи могут если не нести рациональное зерно — то к нему вести.
PS Что думаете про использование психотипов и соционики в моделях? А мб MBTI?
2.5 — 5 трлн 😱 рублей в год — оценивается российский рынок эзотерических услуг.
Обращающихся к магам, гадалкам, таролагам, бабкам-шептуньям и экстрасенсам — многие миллионы наших сограждан.
Очевидно, есть среди них и манагеры.
В старинные времена, когда модели в банках делались на SASе, внушавшая ужас и трепет директриса одного из департаментов приперла начальника DSов к стенке вопросом:
Как в скоринговых моделях используются знаки Зодиака?
Поскольку отшутиться не вышло, срочно был затребован «самый опытный синьор» которому было поручено в кратчайшие сроки такую фичу в модели PD добавить.
Вот только в Банках часто есть отдел / управление валидации, которые в прод не пропустят модель с незначимой фичей.
На следующий день бодрый синьор пришел к директрисе с докладом что «гороскоп не работает».
В ответ узнал о себе много нового.
В канале мы не раз разбирали насколько для успеха критичны знания в доменной области, а он ими обладал примерно на уровне картинки, которую GPT нарисовал к посту.
Что было вскрыто прямыми вопросами вроде «сколько у нас асцендентных Дев в департаменте?» и «у какого числа клиентов шестой дом в Водолее?». ♋️♉️♐️♏️♍️♌️♈️♉️♑️♒️♓️
Покрытый позором, синьор ушел ботать матчасть, перепроверять куда как больше фичей — к Зодиаку добавил еще и восточный гороскоп, а заодно и нумерологию.
Дедлайн был совсем близко, и одна из последних фичей — нумерологическая, сработала. Хорошо так сработала!
Разгадка пришла через несколько дней, после анализа всех доступных числовых полей по апликантам.
А что делать тем, у кого нет работы?
Особенно если в других полях заявитель указал что работа у него есть, ООО «
МГТС же не продаст просто номер, он должен быть подключен по адресу.
А вот
Вот только номера эти будут из одного пула, и, возможно, короткоживующие.
То есть одним номером воспользуются многие аппликанты.
По итогам Банк прикрыл значимый канал фрода, перестав терять кучу денег.
Как говорила одна прожженная каналья-манагер в таких случаях: «счет на табло!».
Btw, даже самые странные идеи могут если не нести рациональное зерно — то к нему вести.
PS Что думаете про использование психотипов и соционики в моделях? А мб MBTI?
Forwarded from Ева Морозова
Media is too big
VIEW IN TELEGRAM
держите мультик аболтусы
❤43😁23💩22👍6 4✍1😢1🤡1
Forwarded from Math cool. Олимпиадная математика
Бесплатные курсы по ИИ
В преддверии нашего зимнего выезда по ИИ-направлению поделимся бесплатными курсами, которые могут помочь войти в курс дела:)
1️⃣ База – подойдет для тех, кто только знакомится с ИИ
➡️ Основы статистики https://stepik.org/course/76/
➡️ Курс по машинному обучению. Проект «ИИ Старт» https://stepik.org/course/125587/
➡️ Курс по машинному обучению «ИИ Старт» — продвинутый уровень https://stepik.org/course/134942/
➡️ ML курс Соколова – отличный курс для того, чтобы усвоить классический ML https://github.com/esokolov/ml-course-hse
➡️ Сириус. Курсы https://edu.sirius.online/ai-navigator/
2️⃣ DLS – подойдет для тех, кто уже имеет более продвинутый уровень
Есть возможность выбрать курс по интересам: Classic ML, Computer Vision, Natural Language Processing, Audio
https://dls.samcs.ru/
В придачу прикладываем вам ссылку на статью, где вы сможете найти 10 курсов от Google по ИИ. Но чтобы открыть её - потребуется впн.
Интересно изучать ИИ и хотели бы это делать этому приобрести и практический и теоретический опыт?
Приезжайте в нашу зимнюю школу на 👉ИИ-направление:)
В преддверии нашего зимнего выезда по ИИ-направлению поделимся бесплатными курсами, которые могут помочь войти в курс дела:)
Есть возможность выбрать курс по интересам: Classic ML, Computer Vision, Natural Language Processing, Audio
https://dls.samcs.ru/
Интересно изучать ИИ и хотели бы это делать этому приобрести и практический и теоретический опыт?
Приезжайте в нашу зимнюю школу на 👉ИИ-направление:)
Please open Telegram to view this post
VIEW IN TELEGRAM
Stepik: online education
Основы статистики
Курс знакомит слушателей с основными понятиями и методами математической статистики. В течение трех недель мы рассмотрим наиболее широко используемые статистические методы и принципы, стоящие за ними. Полученных знаний будет достаточно для решения широкого…
👍42💩15 6🔥4🤡2 2 2✍1
Выложили с коллегами новый препринт, "Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story": https://arxiv.org/abs/2511.15210
В этой работе мы продолжаем изучать внутреннюю размерность (Intrinsic Dimension, сокращенно ID) эмбеддингов текстов на последнем слое трансформеров и её связь со свойствами этих текстов (подробно про то, что такое эта внутренняя размерность, можно прочитать в моей статье на Хабре - https://habr.com/ru/articles/820531/ ). В частности, мы нашли следующие закономерности для ID эмбеддингов (активаций) последнего слоя моделей Qwen-2.5-1.5B, Gemma-2-2B и RoBERTa:
➡️ Чем выше лексическое разнообразие текста, тем в среднем выше и его внутренняя размерность (лексическое разнообразие оценивалось с помощью различных вариаций Type-to-Token Ratio (TTR)). Обратная картина наблюдается с повторениями внутри текста: чем больше в тексте повторяющихся словосочетаний или фраз, тем ниже его ID. Эти закономерности проявляются в разной степени в зависимости от модели, из которой извлекли активации. Наиболее чётко они видны на эмбеддингах RoBERTa - там модуль коэффициента корреляции |r| с соответствующими метриками достигает ~ 0.6-0.85. На Qwen и Gemma связь тоже прослеживается, но выражена слабее (|r| ~ 0.35-0.5).
➡️ В среднем ID (измеренный методом Persistent Homology Dimension, PHD) выше у художественных текстов (∼10.5) и ниже у формальной и сухой научной литературы (∼8) (см. рис. 1). Интересно сопоставить эти значения с краевыми случаями, упомянутыми в нашей работе 2023 года ( https://arxiv.org/abs/2306.04723 ): если текст состоит из случайных, не связанных между собой токенов, его ID в среднем равен ~25. Средний ID текста, состоящего из одного и того же повторяющегося токена, напротив, минимален ( ~2-3).
➡️ Это наблюдение подтвердилось и с помощью анализа фичей Sparse AutoEncoder-а ( то, как работает эта техника interpretability, хорошо объяснено в видосе: https://www.youtube.com/watch?v=UGO_Ehywuxc ). Мы проследили, какие именно фичи SAE активируются сильнее всего на текстах разных жанров и как они скоррелированы с PHD. Результат анализа представлен на рис. 2.
➡️ ID также коррелирует со сжимаемостью текста алгоритмом gzip: чем выше ID, тем хуже текст сжимается, и наоборот (рис. 3). И неудивительно, ведь gzip хорошо сжимает повторяющиеся паттерны, а высокий ID, напротив, указывает на разнообразие и непредсказуемость. Это дополнительно подтверждает интерпретацию ID как меры структурной сложности текста. Интересно, однако, что данное понимание сложности совершенно не совпадает с человеческим: с точки зрения алгоритмов, научные тексты "просты" (низкий ID, хорошо сжимаются), но с точки зрения человека они, напротив, намного более сложны для понимания, чем художественные.
➡️ ID коррелирует с Cross-Entropy Loss (CE Loss) модели, но эта связь объясняется тем, что оба показателя растут с увеличением длины текста. Если нормализовать CE Loss на длину текста, корреляция с ID исчезает (рис. 4). Этот результат показывает, что ID измеряет не то же самое, что энтропия распределения логитов. ID - это независимая характеристика, отражающая сложность текста с другой стороны.
➡️ Разные стохастические методы оценки ID эмбеддингов одной и той же модели показывают довольно согласованные результаты (рис. 5). MLE, TLE и PHD сильно коррелируют друг с другом (r > 0.85), что подтверждает надёжность этих оценок. TwoNN более "шумный", он даёт больший разброс значений, поэтому коррелирует с остальными методами слабее (r ~ 0.55-0.7). Тем не менее, все оценки размерности связаны, и выводы, сделанные из анализа одного способа оценки, можно - в некотором приближении - экстраполировать и на другие.
➡️ Все способы оценки ID (за исключением TwoNN) моделей Qwen и Gemma также сильно скоррелированы между собой (r ~ 0.7-0.9), а ID RoBERTa скоррелированы с ними слабее (r ~ 0.45-0.7). Это может быть связано или с тем, что RoBERTa очень маленькая или с тем, что она использует encoder-архитектуру (в отличие от декодеров Qwen и Gemma). Чтобы уточнить причину, нужно проанализировать больше разных моделей.
#объяснения_статей
В этой работе мы продолжаем изучать внутреннюю размерность (Intrinsic Dimension, сокращенно ID) эмбеддингов текстов на последнем слое трансформеров и её связь со свойствами этих текстов (подробно про то, что такое эта внутренняя размерность, можно прочитать в моей статье на Хабре - https://habr.com/ru/articles/820531/ ). В частности, мы нашли следующие закономерности для ID эмбеддингов (активаций) последнего слоя моделей Qwen-2.5-1.5B, Gemma-2-2B и RoBERTa:
#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1 32❤22 12🔥10👍2🫡2💩1🎄1
Если вам понравилась статья, большая просьба поставить класс на HuggingFace, чтобы она попала в papers of the day:
https://huggingface.co/papers/2511.15210
🥺 🥺 🥺
А если вас в целом заинтересовало применение intrinsic dimension в контексте Deep Learning, напомню, что в моем блоге есть посты и про другие статьи на эту тему: https://news.1rj.ru/str/tech_priestess/1451 , https://news.1rj.ru/str/tech_priestess/781 , https://news.1rj.ru/str/tech_priestess/1052 .
#объяснения_статей
https://huggingface.co/papers/2511.15210
А если вас в целом заинтересовало применение intrinsic dimension в контексте Deep Learning, напомню, что в моем блоге есть посты и про другие статьи на эту тему: https://news.1rj.ru/str/tech_priestess/1451 , https://news.1rj.ru/str/tech_priestess/781 , https://news.1rj.ru/str/tech_priestess/1052 .
#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Paper page - Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
Join the discussion on this paper page
❤45 10💩9🔥8🤗4👌3
Пока что нам все ещё не удалось выйти в тройку лучших статей за день 😢
Но время ещё есть, так что, если кто-то ещё не успел сегодня заглянуть в канал и прочитать новые посты, то напоминаю: у нас с коллегами вышла новая статья про TDA - "Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story", про которую рассказано тут: https://news.1rj.ru/str/tech_priestess/2450 . Достаточно всего лишь воспользоваться старым дедовским методом - залогиниться на huggingface daily papers и сделать upvote, чтобы помочь ей стать статьей дня:
https://huggingface.co/papers/2511.15210
Make TDA Great Again! ✊
Но время ещё есть, так что, если кто-то ещё не успел сегодня заглянуть в канал и прочитать новые посты, то напоминаю: у нас с коллегами вышла новая статья про TDA - "Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story", про которую рассказано тут: https://news.1rj.ru/str/tech_priestess/2450 . Достаточно всего лишь воспользоваться старым дедовским методом - залогиниться на huggingface daily papers и сделать upvote, чтобы помочь ей стать статьей дня:
https://huggingface.co/papers/2511.15210
Make TDA Great Again! ✊
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23🔥13💩7🎉6👍2🤡2
🥈 Статья про TDA в итоге заняла почетное второе место в рейтинге дня, отстав всего на 7 голосов от победителя - статьи OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning! Собираюсь, кстати, почитать эту работу - может, там и правда что-то интересное. 🔍
А всем, кто проголосовал за нашу с коллегами статью, спасибо за поддержку и да хранит вас Бог-Машина!❤️ ❤️ ❤️
А всем, кто проголосовал за нашу с коллегами статью, спасибо за поддержку и да хранит вас Бог-Машина!
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾89❤34 13👍9🎉4🔥3💩3🤡1