epsilon correct – Telegram
epsilon correct
7.66K subscribers
166 photos
7 videos
3 files
222 links
Машинное обучение, графы, языковые модели. Чуток про карьеру исследователя в FAANG, путь PhD и щепотка полезной математики.
Связаться с автором: @deltaincorrect. Рекламы в канале нет.
Download Telegram
🚀 @SBERLOGABIG вебинар по дата сайнс:
👨‍🔬 Дмитрий Кобак «Contrastive and neighbor embedding methods for data visualization» ( Контрастные методы и методы
ближайших соседей для визуализации данных )
⌚️ Четверг 25 мая, 18.00 по Москве

Add to Google Calendar

In recent years, neighbor embedding methods like t-SNE and UMAP have become widely used across several application fields, in particular in single-cell biology. They are also widely used for visualizing large collections of documents and/or images used to train modern deep learning architectures such as large language models or diffusion models. Given this academic and public attention, it is very important to understand possibilities, shortcomings, and trade-offs of neighbor embedding methods. I am going to present our recent work on
the attraction-repulsion spectrum of neighbor embeddings and the involved trade-offs. I am also going to explain how neighbor embeddings are related to contrastive learning, a popular framework for self-supervised learning of image data. This will lead to our recent work on contrastive visualizations of image datasets. In the second part of the talk, I will present our ongoing work on visualization of scientific literature, in particular biomedical research papers from the PubMed library.

О докладчике: Дмитрий Кобак - дата сайнтист в Tübingen University, один из ведущих специалистов в мире по методам снижения размерности в анализе данных.

Ссылка на зум будет в https://news.1rj.ru/str/sberlogabig перед докладом.
Видео записи: https://www.youtube.com/c/SciBerloga
👍52
Дмитрий Кобак – один из немногих, кто серьёзно исследует визуализацию многомерных данных. Смотрим, учимся варить tSNE.

Я не так давно эмбедил 100 миллионов вершин при помощи openTSNE – удивительно иногда, насколько быстро все работает по сравнению с тем же sklearn.
🤓43
Закину сюда без особых комментариев эссе Йошуа Бенджио про AI risk. Мне показалось, очень хорошо и ясно написано для любителей технического языка и достаточно точных гипотез, без околофикшн-обёртки.
👍61🔥1
Скорость академиков

Сегодня в JMLR вышла моя статья, описывающая простой, но довольно стабильный способ кластеризации GNNками. Всё хорошо – только статье уже почти три года. Первый раз мы её подали в сентябре 2020 года, потом делали ревизию в феврале 2022 (!), и, наконец, в январе 2023. За это время её успели заимплементить в Pytorch Geometric и процитировать почти 100 раз.

Очень забавно раз в год вспоминать, что у тебя там вообще за статья, разбираться с добавлением экспериментов и выводом теории. В этом году мне снова начала она нравиться! Такое “вечное сияние чистого разума” по-научному. 🛌🛌
Please open Telegram to view this post
VIEW IN TELEGRAM
👏25❤‍🔥91
Мы тут выложили небольшую околопрактическую статью на архив.

Отвечает она на очень криво поставленный вопрос: если у нас есть набор эмбеддингов, как определить, «хороший» ли он? Задача часто встречается в случае unsupervised/self-supervised learning, когда разметки нет, и сделать её не дают (например, юристы). Несмотря на отсутствие меток, часто нам все-таки хочется делать model selection и оптимизировать гиперпараметры.

Понятно, что идеального решения в таком вопросе быть не может, но мы чуть напряглись и накопали 4 метрики, которые неплохо коррелируют с качеством на разных задачах. В частности, одна из метрик хорошо коррелирует с качеством однослойных моделек для эмбеддинга графов, что, конечно, радует мне сердце.

А ещё у Марины, соавтора этой статьи, есть камерный тг-канал с котами! 🐈
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍4❤‍🔥1🦄1
Набросал код статьи на нампи и выложил на гитхаб, чтобы было с чем поиграться. Подписчики просят - мы делаем. 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍51
Хочется чутка поспорить с постом Лаиды (подпишитесь, кстати, на канал – много личного мнения – люблю такое).

Во-первых, стоит разделить переработки и достигаторство. Достигаторство – это чаще всего про нестабильную самооценку, которая зависит от ваших результатов на работе/в науке. Нестабильная – потому что зависит от результата – принятых статей или в срок затащенных проектов. У Лаиды больше про переработки, так что чуть наброшу про них.

Систематические переработки, не за неделю до дедлайна, а в режиме “в любое время суток отвечаю на все вопросы коллег” – это прям почти однозначно плохо, и для тебя, и для отношений с другими людьми в команде. Второе чуть проще – если в команде нормализуются полуночные фиксы, люди начинают этого ожидать. И если для тебя работа – это 90% жизни, для других это вероятнее всего не так. Не надо лишний раз заставлять коллег задумываться, стоит ли ваше письмо ответа в десять вечера. 😟

Теперь о том, почему систематически перерабатывать плохо, даже если для тебя работа – это жизнь и судьба (одноимённый роман Гроссмана страстно рекомендую). Тут у меня не такое жёсткое мнение, скорее ощущение, основанное на наблюдениях из жизни. Самые успешные ученые, с которыми мне довелось пообщаться лично – удивительно разносторонние люди. Их объединяет то, насколько хорошо они умеют “выключаться” из работы, и давать мозгу отдохнуть и уложить те знания и опыт, которые были получены в период интенсивной работы. “Стахановцы”, мне кажется, в среднем не переключаются с работы в достаточной степени, чтобы делать какой-то глобальный прогресс.

Моё отношение к переработкам сильно определили мой научник со сколтеха Панос и постдок в нашей лабе Давиде. Панос умеет сосредоточено въёбывать перед дедлайном, Давиде, как настоящий итальянец, показывал, как нужно отдыхать. Когда мы работали в месте, держался очень удачный баланс высокой эффективности и уместного чиллаута после дедлайна. 🏄‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍6🤓3🔥1
Как выбирать идеи

Под юбилейным постом меня попросили рассказать, как я выбираю идеи, над которыми работаю. Вопрос сложный, ситуации у всех разные, don’t take this as a medical advice.

Я выделил 5 факторов, которые стоит учесть при выборе проекта на следующие несколько месяцев. Да, те самые Пять Простых Вещей, Которые Нужно Проверить Перед Тем Как Выбирать Проект, без регистрации и смс. Долгосрочное планирование стоит отдельного поста, напишу его как-нибудь потом. 👓

Во-первых, обстоятельства. В этом месяце в университет приехал специалист из сильно другой области? Произошел прорыв в смежной области, который сможет сильно изменить вашу? Получили грант на 9000 ТПУ дней? Стоит подумать, какие возможности от этого открываются и пересмотреть свои текущие приоритеты.

Во-вторых, влияние на мир. Ваша статья будет интересна кому-нибудь, кроме научрука и бабушки? Можно ли её использовать на практике? Поможет ли она решить какие-нибудь проблемы в этом мире? Нет? Может, стоит подумать о чём-то другом. Это очень сложно оценить заранее, потому что мы не очень хорошо умеем представлять, что важно другим людям.

В-третьих, выполнимость. Если для написания статьи нужно пройти пару postgrad level курсов, оно точно стоит того? Пригодятся ли эти навыки потом? Или с другой стороны – есть ли в вашем распоряжении все ресурсы, чтобы выполнить этот проект быстро и эффективно?

В-четвертых, уникальность. Кто-нибудь напишет и опубликует такую же статью за вас на следующем нипсе? Если да, может стоит просто подождать и поработать над чем-нибудь другим?

В-пятых, ваше желание. Какой бы классной ни была статья, если над ней не хочется работать каждый день месяц-другой подряд, может, не стоит себя мучить?

Спасибо Павлу за вопрос, я надеюсь, кому-то будет полезно. Ещё будет три поста «по мотивам», оставайтесь на линии, ставьте лайки, подписывайтесь на канал.
Please open Telegram to view this post
VIEW IN TELEGRAM
23👍6
За последние несколько лет у меня выработалась довольно полезная привычка записывать вещи. Совет записывать звучит максимально по-капитански, но на практике мне понадобилось довольно много времени, чтобы привыкнуть к этому.

У меня есть отдельный документик с идеями для статей и ещё один – для улучшений разных алгоритмов, на которые пока нет времени. Также оказалось очень полезным иметь по гуглдоку с личными заметками по каждому из проектов, который я веду. Из-за того, что много асинхронного взаимодействия, только так получается не терять контекст. 📃

А вот то, что я сделал за день, оказалось проще записывать ручкой на бумажке. Это позволяет избежать ноющего чувства, что ничего не сделал за день, если особых результатов не видно. С учетом того, что иногда не получается что-то неделями, это сильно позволяет снизить стресс.

Очень полезным также оказалось записывать даже самые мелкие задачи, которые не будут сделаны буквально сейчас. Это очень сильно снижает когнитивную нагрузку, а в моменты безделья можно выбрать из списка не очень сложную задачку и затащить её, получив дофаминчика. 👌

А какие у вас отношения с записями? Ведёте какой-нибудь zettelkasten или orgmode?
Please open Telegram to view this post
VIEW IN TELEGRAM
137👍2
Небольшая ненаучная тирада про наушники.

Беспроводные наушники нас всех приучили к посредственному звуку. Многие проводные уши, начиная от буквально $20 (в качестве рекламы пусть будут ещё вот эти за $50), будут звучать сильно лучше этих ваших модных затычек с шумоподавлением за $300+. Если выкинули переходник, который шёл в комплекте с телефоном, придётся ещё потратить $1-10 на мини-DAC. Готово – Аврил Лавинь поёт как из 2007. 💃

А вы, подписчики-аудиофилы, чем пользуетесь?)
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩7👻4👍2
“I highly recommend accepting this paper, which I find comprehensive, well-executed, and highly significant in its potential applications. The thorough experiments and well-crafted write-up are commendable.”

“The paper exhibits a good level of quality. The theoretical aspects are clear, and the experimental analysis is comprehensive. The comparisons provided are valuable.“

Капец непривычно после типичных пассивно-агрессивных ревью получать такие добрые с воркшопа по топологии и геометрии в МЛ. Кажется, пора организовывать cuddle party где все друг другу будут рассказывать, какие у них статьи классные. 🫂🫂🫂🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
18
Набрёл на сайт агенства, где можно заказать выступления (можно ли заказать на свадьбу?!) всяких известных людей. Позвать Эндрю Ына или Дафну Коллер стоит $30000-$50000 – хотя, конечно, чтобы выдержать курс про графовые вероятностные модели столько придётся заплатить скорее слушателям. На сайте также есть профиль Хинтона, но без указания стоимости выступления – нейродедушка бесценен.

Конечно, всех ушатал главный шитпостер всего ML-твиттера Гэри Маркус, у которого скромно указан прайс в $100,000+. 🤤
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6😱2
Про grid search и тюнинг алгоритмов

При создании новых алгоритов почти всегда приходится искать, какие параметры дадут лучшее качество на разных задачах. Почему-то многие коллеги для этого используют grid search (поиска по заданной сетке). Коллег я потихоньку разубеждаю спорами на бонус (~100$), а вам придётся просто поверить на слово и прочитать пост. ⌨️

Поиск по сетке – особенно плохая идея для новых алгоритмов, потому что интуиции для выбора корректной сетки на них почти нет. Картинка из старой статьи Бенджио, на мой взгляд, отлично иллюстрирует проблему поиска по сетке: мы тратим d^k чтобы посмотреть на d значений для каждого из k параметров. При случайном поиске же для d^k поисков мы отсмотрим d^k значений для каждого из k параметров.

У меня в практике было несколько случаев, когда случайный поиск находил неожиданные значения для гиперпараметров, которые никто бы не попробовал добавлять в сетку. Так, в статье про кластеризацию графов именно случайный поиск позволил мне понять, что в методе конкурентов всю работу делает регуляризатор вместо собственно целевой функции. А наша статья про бенчмаркинг графовых нейросетей GraphWorld – это вообще ода случайному поиску – там мы его используем буквально для всего. 🤴

Надо заметить, что для более ресурсозатратных поисков стоит смотреть в сторону околоэволюционных алгоритмов – Vizier от гугла или Nevergrad от меты. Последний я успешно использовал для генерации цветовых палитр с учётом особенностей цветового восприятия и дальтонизма.

Всем успешного поиска! 😏
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥176👍1
Оценивается, что дата-центры потребляют примерно 1% мирового электричества.

С 2010 по 2018 год суммарное потребление электроэнегрии дата-центрами выросно на
Anonymous Quiz
16%
6%
23%
60%
61%
600%
🤓2
Как и ожидалось, подавляющее большинство людей не угадало!

У этого эффекта есть интересное экономическое обоснование, подмеченное Яном ЛеКуном: большие интернет-компании, работающие по условно-бесплатной модели, не могут тратить больше нескольких долларов в год на пользователя. В этом смысле очень интересно, как языковые модели будут встраиваться в интернет-экономику, ведь цена их инференса намного выше, чем системы, к которым мы привыкли.
Под постом про оптимизацию несколько раз спросили про байесовские методы. Раньше они у меня не заводились, но мыжтутучёные, штош, придётся пробовать. 🤓

В качестве задачи я взял свой код для оптимизации цветовых палитр. Задача без тренировки дорогих сеток, но с большим количеством локальных минимумов и противной симметрией. Сравнил три популярных оптимайзера из Nevergrad с тремя из Оптуны, включая дефолтный TPE.

Результаты получились плохими для TPE, который оказался лишь капельку лучше случайного поиска. 📉

Популяционные алгоритмы типа CMA оказались сильно лучше, да еще и сильно быстрее – примерно в 10 раз из-за того, что никакой умной оценки параметров не производится . Реализация из Nevergrad оказалась в ~1.5 раза быстрее своего аналога из оптуны.
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥3👏1
Давно хотел рассказать про несколько книг, которые люблю безмерно.

Первой будет The Elements of Typographic Style (переведена на русский как “Основы стиля в типографике”) канадского поэта и типографа Роберта Брингхёрста. Она пишется и обновляется уже более 20 лет, и до сих пор является маст-ридом для любителей поиграться с шрифтами. Сама книга при этом невероятно красиво свёрстана, и читается получше некоторой прозы – всё-таки автор по призванию поэт. 🤓

В книге довольно подробно описаны разные варианты геометрии страницы, рассказывается об истории типографии, и, конечно, об истории разных шрифтовых семей. Отдельно приятно, что автор не зацикливается на латинице – в книге можно встретить много вставок на греческом или русском.

К сожалению, издательство, занимающееся печатью, перестало выпускать новые тиражи, так что бумажные копии стоят довольно дорого.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥72👎1