Что-то у меня накопилось много статей, которые хотелось бы поразбирать, но из-за того, что я не могу решить, с чего начать, я вместо этого сплю и смотрю видео про вархаммер!
Помогите придумать, какую статью прочитать первой, чтобы выйти из состояния прокрастинации. Если статья мне понравится, то я также сделаю её разбор для паблика, а если не понравится, то я не буду в неё сильно вчитываться и перейду к какой-нибудь другой, более для меня актуальной.
Для удобства я разделила статьи по категориям. Вот они:
----------------------------------
Нагруженные математикой
----------------------------------
Categorical Deep Learning: An Algebraic Theory of Architectures
https://arxiv.org/abs/2402.15332
Авторы описывают разные DL архитектуры на языке теории категорий. Из-за того, что я отвыкла читать статьи без картинок и без отдельного списка contributions (такие статьи типичны для теоретической математики, но не типичны для Deep Learning), то глазу не за что зацепиться, и я не знаю, с чего начать её осмысление.
Fractal Patterns May Unravel the Intelligence in Next-Token Prediction
https://arxiv.org/abs/2402.01825
Авторы описывают, как связано качество предсказания следующего токена в модели и фрактальные свойства текста. Может быть интересна мне потому что мы с коллегами также использовали фрактальную размерность в своей статье: https://neurips.cc/virtual/2023/poster/72624 .
----------------------------------
Связанные с outlier dimensions
----------------------------------
Outlier Dimensions Encode Task Specific Knowledge
https://aclanthology.org/2023.emnlp-main.901/
Связь outlier dimensions и качества модели на отдельных задачах. Про то, что такое outlier dimensions и про некоторые их свойства см., например, мой старый пост https://news.1rj.ru/str/tech_priestess/148 .
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
https://arxiv.org/abs/2208.07339
Заинтересовалась этой статьей после прочтения блог-поста https://timdettmers.com/2022/08/17/llm-int8-and-emergent-features/ , где автор на неё ссылался (тот же автор, что и у самой статьи). Как думаете, стоит ли мне читать статью, если я не интересуюсь деталями алгоритмов квантизации, а интересуюсь только их связью с внутренними представлениями (и теми же outlier dimensions)?
----------------------------------
Про связь reasoning в NLP-моделях и внутренних представлений
----------------------------------
The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction
https://arxiv.org/abs/2312.13558
Авторы улучшают качество LLM с помощью удаления каких-то компонент матриц весов.
Do Large Language Models Latently Perform Multi-Hop Reasoning?
https://arxiv.org/abs/2402.16837
Статья из поста https://news.1rj.ru/str/tech_priestess/1306 .
----------------------------------
Про галлюцинации
----------------------------------
Do Androids Know They're Only Dreaming of Electric Sheep?
https://arxiv.org/abs/2312.17249
Про то, как понять, галлюцинирует модель или нет, с помощью анализа её внутренних представлений.
----------------------------------
Отмечу, что описание статей может не соответствовать в точности их смыслу, так как пока что я прочитала лишь абстракты и просмотрела некоторые картинки.
Помогите придумать, какую статью прочитать первой, чтобы выйти из состояния прокрастинации. Если статья мне понравится, то я также сделаю её разбор для паблика, а если не понравится, то я не буду в неё сильно вчитываться и перейду к какой-нибудь другой, более для меня актуальной.
Для удобства я разделила статьи по категориям. Вот они:
----------------------------------
Нагруженные математикой
----------------------------------
Categorical Deep Learning: An Algebraic Theory of Architectures
https://arxiv.org/abs/2402.15332
Авторы описывают разные DL архитектуры на языке теории категорий. Из-за того, что я отвыкла читать статьи без картинок и без отдельного списка contributions (такие статьи типичны для теоретической математики, но не типичны для Deep Learning), то глазу не за что зацепиться, и я не знаю, с чего начать её осмысление.
Fractal Patterns May Unravel the Intelligence in Next-Token Prediction
https://arxiv.org/abs/2402.01825
Авторы описывают, как связано качество предсказания следующего токена в модели и фрактальные свойства текста. Может быть интересна мне потому что мы с коллегами также использовали фрактальную размерность в своей статье: https://neurips.cc/virtual/2023/poster/72624 .
----------------------------------
Связанные с outlier dimensions
----------------------------------
Outlier Dimensions Encode Task Specific Knowledge
https://aclanthology.org/2023.emnlp-main.901/
Связь outlier dimensions и качества модели на отдельных задачах. Про то, что такое outlier dimensions и про некоторые их свойства см., например, мой старый пост https://news.1rj.ru/str/tech_priestess/148 .
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
https://arxiv.org/abs/2208.07339
Заинтересовалась этой статьей после прочтения блог-поста https://timdettmers.com/2022/08/17/llm-int8-and-emergent-features/ , где автор на неё ссылался (тот же автор, что и у самой статьи). Как думаете, стоит ли мне читать статью, если я не интересуюсь деталями алгоритмов квантизации, а интересуюсь только их связью с внутренними представлениями (и теми же outlier dimensions)?
----------------------------------
Про связь reasoning в NLP-моделях и внутренних представлений
----------------------------------
The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction
https://arxiv.org/abs/2312.13558
Авторы улучшают качество LLM с помощью удаления каких-то компонент матриц весов.
Do Large Language Models Latently Perform Multi-Hop Reasoning?
https://arxiv.org/abs/2402.16837
Статья из поста https://news.1rj.ru/str/tech_priestess/1306 .
----------------------------------
Про галлюцинации
----------------------------------
Do Androids Know They're Only Dreaming of Electric Sheep?
https://arxiv.org/abs/2312.17249
Про то, как понять, галлюцинирует модель или нет, с помощью анализа её внутренних представлений.
----------------------------------
Отмечу, что описание статей может не соответствовать в точности их смыслу, так как пока что я прочитала лишь абстракты и просмотрела некоторые картинки.
arXiv.org
Position: Categorical Deep Learning is an Algebraic Theory of All...
We present our position on the elusive quest for a general-purpose framework for specifying and studying deep learning architectures. Our opinion is that the key attempts made so far lack a...
Новые эмодзи из реакций и кот Персик впридачу. В формате, в котором их можно добавлять в свои наборы эмодзи.
P.S. Добавила в комментарии к следующему посту соответствующие стикеры.
P.S. Добавила в комментарии к следующему посту соответствующие стикеры.
Раз уж зашла речь про стикеры, скину в комментариях к этому посту стикеры из своих любимых наборов. 😉 Так-то у меня этих наборов уже около ста в архиве (из них несколько самодельных), но я постараюсь выбрать только самые интересные...
Кидайте свои любимые тоже. Особенно, если они как-то связаны с наукой, вархаммером, IT. Но можно и другие, если очень-очень любите их.
P.S. Пожалуйста, кидайте только один стикер из каждого набора!
Кидайте свои любимые тоже. Особенно, если они как-то связаны с наукой, вархаммером, IT. Но можно и другие, если очень-очень любите их.
P.S. Пожалуйста, кидайте только один стикер из каждого набора!
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰13 7💊1
#задача - заполнить пробелы.
Тех, кому я уже показывала фотографии из этой книжки, просьба не отвечать, вы-то уже в курсе.😉
Книга, естественно, никак не связана с IT, так что в этот раз тому, кто первый решит, будет дано нетипичное звание... скажем, "еретех" или "знаток варпа" на выбор.
Тех, кому я уже показывала фотографии из этой книжки, просьба не отвечать, вы-то уже в курсе.
Книга, естественно, никак не связана с IT, так что в этот раз тому, кто первый решит, будет дано нетипичное звание... скажем, "еретех" или "знаток варпа" на выбор.
Please open Telegram to view this post
VIEW IN TELEGRAM
👎1 1
Для тех, кто не читает комментарии: уже отгадали.
Рис. 1 - источник, рис. 2 - страница без [данные удалены].
Юнг, видимо, мощным псайкером был, часто с варпом общался... надо будет потом его оккультные дневники почитать. Надеюсь, не скоррапчусь.🙏
#книги
Рис. 1 - источник, рис. 2 - страница без [данные удалены].
Юнг, видимо, мощным псайкером был, часто с варпом общался... надо будет потом его оккультные дневники почитать. Надеюсь, не скоррапчусь.
#книги
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Раз уж сегодня в паблике стихийно случился день максимально бесполезной информации, вот ещё один бесполезный её кусок, а именно, изображения некоторых облачений, в которые я облекаю свою слабую плоть:
Рис. 1 - сегодняшнее облачение для работы.
Рис. 2 - 4 - другие облачения для работы, с прошлого года.
Рис. 5 - 6 - облачение для летних командировок.
Рис. 7 - облачение для ролевой.
Рис. 8 - когда играю в игру после работы или подключаюсь к очень позднему созвону из дома.
#о_себе
Рис. 1 - сегодняшнее облачение для работы.
Рис. 2 - 4 - другие облачения для работы, с прошлого года.
Рис. 5 - 6 - облачение для летних командировок.
Рис. 7 - облачение для ролевой.
Рис. 8 - когда играю в игру после работы или подключаюсь к очень позднему созвону из дома.
#о_себе
❤66 27 14👍9 9🔥7❤🔥5🥰4 3😭2🤯1