Техножрица 👩‍💻👩‍🏫👩‍🔧 – Telegram
Техножрица 👩‍💻👩‍🏫👩‍🔧
13.8K subscribers
1.4K photos
64 videos
28 files
753 links
Люблю высокие технологии и кушать.

Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.
Download Telegram
Выложили с коллегами новый препринт, "Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story": https://arxiv.org/abs/2511.15210

В этой работе мы продолжаем изучать внутреннюю размерность (Intrinsic Dimension, сокращенно ID) эмбеддингов текстов на последнем слое трансформеров и её связь со свойствами этих текстов (подробно про то, что такое эта внутренняя размерность, можно прочитать в моей статье на Хабре - https://habr.com/ru/articles/820531/ ). В частности, мы нашли следующие закономерности для ID эмбеддингов (активаций) последнего слоя моделей Qwen-2.5-1.5B, Gemma-2-2B и RoBERTa:

➡️ Чем выше лексическое разнообразие текста, тем в среднем выше и его внутренняя размерность (лексическое разнообразие оценивалось с помощью различных вариаций Type-to-Token Ratio (TTR)). Обратная картина наблюдается с повторениями внутри текста: чем больше в тексте повторяющихся словосочетаний или фраз, тем ниже его ID. Эти закономерности проявляются в разной степени в зависимости от модели, из которой извлекли активации. Наиболее чётко они видны на эмбеддингах RoBERTa - там модуль коэффициента корреляции |r| с соответствующими метриками достигает ~ 0.6-0.85. На Qwen и Gemma связь тоже прослеживается, но выражена слабее (|r| ~ 0.35-0.5).
➡️ В среднем ID (измеренный методом Persistent Homology Dimension, PHD) выше у художественных текстов (∼10.5) и ниже у формальной и сухой научной литературы (∼8) (см. рис. 1). Интересно сопоставить эти значения с краевыми случаями, упомянутыми в нашей работе 2023 года ( https://arxiv.org/abs/2306.04723 ): если текст состоит из случайных, не связанных между собой токенов, его ID в среднем равен ~25. Средний ID текста, состоящего из одного и того же повторяющегося токена, напротив, минимален ( ~2-3).
➡️ Это наблюдение подтвердилось и с помощью анализа фичей Sparse AutoEncoder-а ( то, как работает эта техника interpretability, хорошо объяснено в видосе: https://www.youtube.com/watch?v=UGO_Ehywuxc ). Мы проследили, какие именно фичи SAE активируются сильнее всего на текстах разных жанров и как они скоррелированы с PHD. Результат анализа представлен на рис. 2.
➡️ ID также коррелирует со сжимаемостью текста алгоритмом gzip: чем выше ID, тем хуже текст сжимается, и наоборот (рис. 3). И неудивительно, ведь gzip хорошо сжимает повторяющиеся паттерны, а высокий ID, напротив, указывает на разнообразие и непредсказуемость. Это дополнительно подтверждает интерпретацию ID как меры структурной сложности текста. Интересно, однако, что данное понимание сложности совершенно не совпадает с человеческим: с точки зрения алгоритмов, научные тексты "просты" (низкий ID, хорошо сжимаются), но с точки зрения человека они, напротив, намного более сложны для понимания, чем художественные.
➡️ ID коррелирует с Cross-Entropy Loss (CE Loss) модели, но эта связь объясняется тем, что оба показателя растут с увеличением длины текста. Если нормализовать CE Loss на длину текста, корреляция с ID исчезает (рис. 4). Этот результат показывает, что ID измеряет не то же самое, что энтропия распределения логитов. ID - это независимая характеристика, отражающая сложность текста с другой стороны.
➡️ Разные стохастические методы оценки ID эмбеддингов одной и той же модели показывают довольно согласованные результаты (рис. 5). MLE, TLE и PHD сильно коррелируют друг с другом (r > 0.85), что подтверждает надёжность этих оценок. TwoNN более "шумный", он даёт больший разброс значений, поэтому коррелирует с остальными методами слабее (r ~ 0.55-0.7). Тем не менее, все оценки размерности связаны, и выводы, сделанные из анализа одного способа оценки, можно - в некотором приближении - экстраполировать и на другие.
➡️ Все способы оценки ID (за исключением TwoNN) моделей Qwen и Gemma также сильно скоррелированы между собой (r ~ 0.7-0.9), а ID RoBERTa скоррелированы с ними слабее (r ~ 0.45-0.7). Это может быть связано или с тем, что RoBERTa очень маленькая или с тем, что она использует encoder-архитектуру (в отличие от декодеров Qwen и Gemma). Чтобы уточнить причину, нужно проанализировать больше разных моделей.

#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1322212🔥10👍2🫡2💩1🎄1
Если вам понравилась статья, большая просьба поставить класс на HuggingFace, чтобы она попала в papers of the day:

https://huggingface.co/papers/2511.15210

🥺🥺🥺

А если вас в целом заинтересовало применение intrinsic dimension в контексте Deep Learning, напомню, что в моем блоге есть посты и про другие статьи на эту тему: https://news.1rj.ru/str/tech_priestess/1451 , https://news.1rj.ru/str/tech_priestess/781 , https://news.1rj.ru/str/tech_priestess/1052 .

#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
4510💩9🔥8🤗4👌3
Пока что нам все ещё не удалось выйти в тройку лучших статей за день 😢

Но время ещё есть, так что, если кто-то ещё не успел сегодня заглянуть в канал и прочитать новые посты, то напоминаю: у нас с коллегами вышла новая статья про TDA - "Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story", про которую рассказано тут: https://news.1rj.ru/str/tech_priestess/2450 . Достаточно всего лишь воспользоваться старым дедовским методом - залогиниться на huggingface daily papers и сделать upvote, чтобы помочь ей стать статьей дня:

https://huggingface.co/papers/2511.15210

Make TDA Great Again!
Please open Telegram to view this post
VIEW IN TELEGRAM
23🔥13💩7🎉6👍2🤡2
🥈 Статья про TDA в итоге заняла почетное второе место в рейтинге дня, отстав всего на 7 голосов от победителя - статьи OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning! Собираюсь, кстати, почитать эту работу - может, там и правда что-то интересное. 🔍

А всем, кто проголосовал за нашу с коллегами статью, спасибо за поддержку и да хранит вас Бог-Машина! ❤️❤️❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾893413👍9🎉4🔥3💩3🤡1
Недавно закончила, наконец, проходить игру Chants of Senaar - квест, в котором надо бродить по стильному игровому миру, читать иероглифы (простых придуманных языков) и разгадывать их смысл. Разгадка иероглифов (и, соответственно, понимание надписей/реплик) позволяет понять, что от игрока хотят персонажи и что делать, чтобы продвинуться дальше. Изначально я ей заинтересовалась потому что в каком-то из каналов, которые я читаю, про эту игру написали, что она показывает - пусть и в очень упрощенном виде - принципы реальной работы лингвистов, расшифровывающих древние языки (к сожалению, я напрочь забыла, в каком именно канале это было написано). Я мало что знаю про расшифровку языков, так что не могу подтвердить или опровергнуть это утверждение, но в целом игра мне понравилась.

Я часто вспоминаю эту игру, когда изучаю китайский и особенно когда пытаюсь расшифровать какие-нибудь надписи, где есть хотя бы парочка знакомых мне иероглифов (я знаю их несколько десятков, в обычном письме используется несколько тысяч, а устаревших и редко используемых иероглифов существуют и вовсе десятки тысяч). Интересно, что многие из китайских иероглифов раскладываются на несколько типичных кусочков, которые называются "ключи", при чем один и тот же ключ может встречаться в разных иероглифах. Нередко ключ имеет самостоятельный смысл, являясь упрощенной версией более "атомарного" иероглифа. Он наследует от этого "атомарного" иероглифа смысл или произношение и соответственным образом может влиять на смысл или произношение составного иероглифа. Жалко, что такой принцип не реализовали в игре, чтобы игрок постепенно учился отгадывать большие иероглифы, зная значения ключей, из которых они состоят. А еще жалко что там нельзя грабить корованы.

Тут - https://news.1rj.ru/str/dereference_pointer_there/10308 тоже писали про эту игру и даже дали ссылку на ролик с поиском глубинного смысла, который я посмотрела с интересом.
6234🔥13👍2💩1🍓1
Поправка: на самом деле ключи в игре были, в самом первом языке. Но я забыла что там было, так как мой игровой процесс растянулся больше чем на месяц 🥴
Символы в последнем языке тоже составные, но там не такие ключи, как в китайском, а просто части символов накладываются друг на друга.
Короче, я как всегда оказалась невнимательной. Спасибо челам в комментах что поправили
21148💩1
Трансгендеры, Code Property Graph и при чём здесь AI

В мире анализа кода есть такая современная сущность: CPG — графовое представление программы, по сути привычное всем программистам дерево AST, дополненное CFG и PDG. Все крутые современные анализаторы стараются этим пользоваться.

И вот дают мне почитать свежую научную статью про то, как большие языковые модели можно подружить с CPG для поиска ошибок в коде.

Буквально в самом начале, в контексте межпроцедурного анализа, натыкаюсь на список литературы. Взгляд сразу подозрительно цепляется за пункт 28:

First, they typically focus on function-level analysis, overlooking crucial inter-procedural dependencies and broader program context [5,18,19,21,27,28,43].

[28] Danielle M Seid. Reveal. Transgender Studies Quarterly, 1(1–2):176–177, 2014. Danielle M. Seid is a PhD student at the University of Oregon, where she specializes in film/TV, queer studies, and critical race theory.


И дальше я минут десять искренне пытаюсь понять, не пролистнул ли я куда-то не туда и ту ли вообще статью открыл. Почему в контексте анализа кода внезапно появляется ежеквартальное исследование трансгендеров с названием Reveal?

“Раскрытие” (the reveal) — это момент в жизни трансгендерного человека, когда на него давит гендерная система, требующая «обнародовать правду» о теле или идентичности. Ну, думаю я: намоленный Запад окончательно оплёл всё повесточкой — даже в статьи про графы и анализ кода.

Сначала я проникся и глубоко изучил все грани собственной сексуальности. А затем понял простую вещь: уважаемые учёные из уважаемых университетов просто слепили эту статью с помощью ИИ, который перепутал фреймворк REVEAL для фронтендеров с ежеквартальным исследованием трансгендеров. Смеялся.

⚠️ UPD: Статья в таком виде принята на уважаемую USENIX conference 2025.
🤪118🤣3225🥴16135🏆5🔥1👏1🤡1
Forwarded from Борис опять
Первый курс в магистратуре по ML если бы я был деканом.

Обязательные курсы:
- Просмотр аниме "Психо-паспорт"
- Угадывание содержания статей по абстрактам. Экзамен: определение китайских статей
- Скроллинг Твиттера

Курсы по выбору:
- Критика Юдковского в Интернете.
- Создание паблика с мемами про вагонетки и шогготов.
- Введение в рисование графиков экспонент.
- Прикладной слив персональных данных.
- Углубленное использование команды vllm serve.
- Основы создания бенчмарков с n=1.
- Введение в product-free стартапы с уклоном в AI safety.
- Подготовка резюме для Palantir.

Курсовая работа: Kaggle соревнование по построению кибергулага
10733🤪19💯1211😁7💩52🤔1
В группе обсуждения уже пару дней обсуждают новый видос Панчина с громким названием "Мораль без Бога: как наука объясняет добро и зло" (https://www.youtube.com/watch?v=vRobgiFnAOY), а также развёрнутую критику на этот ролик, разбитую на несколько постов, в канале одного небезызвестного препода ВШЭ: https://news.1rj.ru/str/furydrops/3907

Не могу в полной степени оценить тонкости теоретико-игровых аргументов из данного критического комментария (так как плохо знаю эту область математики), но с этой частью соглашусь:

Главная проблема Панчина в том, что он подменяет вопросы об источниках и содеражании морали вопросами происхождения практик, которые лишь могут при определенных условиях быть моральными. Вопросы морального целеполагания подменяются вопросами генезиса практик, которые могут служить чему-то благому вообще, а могут и не служить, принося пользу одним и горе другим.


На самом деле, это довольно типичная ошибка при попытке научно объяснить мораль. А ещё мне сразу вспомнилось, что похожую логическую ошибку я встречала в TED Talks на близкую тему - тему "счастья".

В этих TED Talks рассказывали про исследования, показывающие, что люди, которые делают X (например, занимаются бегом по утрам, имеют сильное чувство принадлежности к определенному сообществу или проводят много времени с семьёй), в среднем демонстрируют более высокий уровень "счастья" по результатам опросов. И из этого делался вывод: слушателям тоже нужно делать X. Но это логическая ошибка - из того, что X коррелирует со счастьем, не следует, что слушатель должен это делать. И даже если мы допустим на секунду, что все эти исследования были проведены идеально + корреляция, замеченная в них, действительно отображает причинно-следственную связь (что, на самом деле, не доказано), вывод TED Talk'ов все равно разбивается о фундаментальную проблему: человек-то, на самом деле, не обязан максимизировать своё счастье.

Возвращаясь к Панчину: даже если отбросить в сторону все теоретико-игровые, философские и антропологические контраргументы к видео и полностью принять на веру всю аргументацию в пользу того, что быть "моральным" (в смысле Панчина) выгодно, из этого все равно не будет следовать, что человек должен быть "моральным" (в смысле Панчина). Ведь, опять же, человек не обязан максимизировать свою выгоду или подчиняться эволюционным императивам.

В общем, рекомендую ознакомиться с обоими материалами, дискуссия получилась содержательная. #рассуждения #срач
3623👍1287💩4👎3🔥33🥱2🤡1
Media is too big
VIEW IN TELEGRAM
Все срочно откладываем свои дела, включаем видео, включаем звук и дружно завидуем моей крутой игрушке 😎😎😎🤟🤟🤟

#о_себе
85🔥27🤩25👍1413💩98🫡3💅3🤷‍♂1🤡1
День математика сегодня празднуют в России. Повод, надо сказать, пристойный: день рождения Николая Ивановича Лобачевского, великого геометра, создателя (в некотором смысле) неевклидовой геометрии и ректора Казанского университета.

Я вот уже несколько месяцев размышляю о том, что математика — на самом деле очень жестокая наука. Возможно, самая жестокая из всех. В естественных науках всегда можно позаниматься какими-то экспериментами. Даже отсутствие результата — часто некий результат, информация о том, что так-то и так-то сделать нельзя. А у нас…

В математике отсутствие результата — это именно отсутствие результата. Сотни (тысячи?) исписанных страниц, всяких попыток и так далее — никому не покажешь, если ничего не доказал. А если и доказал, то часто такая ерунда, что даже и не опубликуешь. Когда я ещё писал на бумаге (уже много лет пишу в планшетнике), я как-то прикинул, что один из моих результатов — довольно ерундовый — стоил мне буквально пачки листов А4. А сколько таких «пачек» не привели вообще ни к чему…

Вот и сейчас: вымучиваю результат, которым занимаюсь уже года два, если не больше. Всего-то третий раз переписываю текст, исправляю определения, подбираю нужную общность. Сплошные мучения ради редких секунд удовольствия от пришедшего понимания.

И я ещё довольно благополучный парень. У меня есть много задач, которые розданы моим верным падаванам, и с которыми мучаются в основном они. Кстати, они зайки: часто получаются очень неплохие результаты — «я бы такого не придумал». Хотя и от них часто слышу: «Ой, ничего не получается, что делать… Ой, прокрастинация замучала… Ой, там всё сложно и/или и так всё наверное известно…»

Кстати, о самом Лобачевском. Человек вроде бы успешный: ректор университета, награждённый орденами, возведённый в потомственное дворянство. Лавировавший между религиозным фанатиком Магницким и необходимостью развивать естественные науки (банально иметь анатомические препараты). Человек, которого костерили за неевклидову геометрию не в последнюю очередь с точки зрения «недостаточной духовности» оной.

Тут небольшое замечание: в те времена к аксиомам подход был достаточно строгий. И замена Лобачевским одной аксиомы на другую воспринималась как возмутительное вольтерьянство. Чего уж: даже введение им в курс (обычной) геометрии метрической системы было воспринято как реверанс в сторону французских вольнодумцев. Ну, а за неевклидову геометрию его крыли последними словами в «Сыне отечества». Это примерно как если бы сейчас его прополоскали в эфире у Соловьёва.

В последние месяцы жизни, вытуренный из родного Казанского университета, Лобачевский ослеп. И, почти не вставая с кровати, надиктовывал последнюю книгу, «Пангеометрию», своим ученикам — которые, по воспоминаниям, были очень недовольны, что им приходится терпеть старого дурака и его бредни. Когда ещё через десяток лет, благодаря работам Бельтрами и других, построивших модели для его геометрии, к Николаю Ивановичу пришла слава, университет решил издать полное собрание сочинений. И многие работы не нашли… Кстати, и до сих пор, как я понимаю, не все его труды обнаружены.

Правда про профессию «математик» в том, что ей нужно заниматься только когда нет другого выхода. Мне кажется, если есть вариант между математикой и чем-то ещё, радующим душу, надо выбирать второй вариант.

Впрочем, очень часто бывает, что выбор — это иллюзия, и никакого варианта нет. Тогда — добро пожаловать в профессию :-)

Удачи нам, дорогие коллеги! Всех причастных — с праздником! Keep pushing!
9822🎉145🤡4🫡33👍1😢1💯1
😁116💩53🥴12🤡63🤮3🔥2💯1
Друзья, не ставьте 💩, меня взломал админ Love Death Transformers, репост не мой! 💅
Please open Telegram to view this post
VIEW IN TELEGRAM
💩77😁49🥴12🤡76🤮3🐳1🤣1🍌1💊1
Какой ты пингвин?
Anonymous Poll
15%
Skipper
21%
Private
32%
Kowalski
33%
Rico
💩5116😁31
А опрос мой 😏
💩4532😁11🤡7👍5💊322
Друзья, а как думаете, разбор какой научной статьи по Deep Learning в данном канале смог бы собрать максимальное количество 🤡 и 💩?

Предлагайте варианты 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡69🍌30💩19🖕33🔥1🤔1
Пригласили на чемпионат Yandex Cup 25 в качестве гостя (сама в чемпионате не участвую). Прилетаю - а тут уже AGI...

#о_себе
😁6615134🔥4👍2💩2🤡2💅22