epsilon correct – Telegram
epsilon correct
7.66K subscribers
166 photos
7 videos
3 files
222 links
Машинное обучение, графы, языковые модели. Чуток про карьеру исследователя в FAANG, путь PhD и щепотка полезной математики.
Связаться с автором: @deltaincorrect. Рекламы в канале нет.
Download Telegram
Стажировки

Сейчас разгар сезона стажировок – только сегодня я пообщался с тремя стажёрами, которые делают свои проекты при моём участии. И это ещё не вышла девушка, которой буду руководить непоследственно я. Быстрый способ почувстсвовать себя старым. 👴

Я сам был стажёром дважды – первый раз раз в 2019 году, в инженерной команде, которая делала горизонтальную систему анти-абьюз для разных систем гугла. Это было в Саннивейле в Калифорнии – тогда я точно понял, что там жить не очень хочется. Я тогда написал только одну статью, зато вфигачил много кода и экспериментов, так что в итоге получился длинный и красивый отчёт.

Второй раз я уже пошёл непосредственно в команду graph mining, в которой в итоге и остался. Дело было в феврале 2020 года в Нью-Йорке, и в офис я успел отходить примерно недели две 😭. Из-за ковида стажировку пришлось продлить – зато я успел написать две статьи, и тот самый патент, который опубликовали только недавно.

У меня несколько раз спрашивали, что является хорошим результатом для исследовательской стажировки (research internship, PhD level):
1. Подготовка одной полноценной статьи на конференцию уровня NeurIPS/ICLR/ICML.
2. Написание 4+ пулл-реквестов средней сложности – нет, исправить опчеатки не считается. Хорошо, когда интерн может написать свой алгоритм в наши фреймворки, но можно и наговнокодить мимо.
3. Запустить свой алгоритм на внутренних данных и нарисовать красивую картиночку. Умение рисовать красивые картиночки – недооценённый талант, который сильно помогает людям запоминать вашу работу.

Готово, вы великолепны!🤴

Мне говорили, что это много, но я регулярно вижу, что в команде этого достигают почти все стажёры, что до нас доходят. Посмотрим, что выйдет продуктивного из этого сезона стажировок.😑
Please open Telegram to view this post
VIEW IN TELEGRAM
20
Нам дана "нечестная" монетка – орёл выпадает с вероятностью p, решка – с 1 - p. Можем ли мы симулировать бросок честной монетки с выпадением орла в 50%?
Anonymous Quiz
27%
Можем, за два броска
50%
Можем
22%
Не можем
🤓5
Поехал на ICML – вторую по размеру конференцию по машинному обучению. Мы там покажем туториал по нашей библиотеке TensorFlow-GNN и пару воркшопных статей. Постер к моей любимой – на фото (ковёр для антуража 🇷🇺).

В этом году конференция на Гавайях, поэтому пропускать такое нельзя. 🏄‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍4🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Позволю себе одно видео с самолета – слишком уж красиво. ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24
Академия и индустрия

У каждого PhD студента в какой-то момент встаёт вопрос о том, продолжать ли карьеру в индустрии или оставаться в академии. Для себя я не видел особого развития в академии: кочевать по случайным европейским деревням – не очень интересная для меня перспектива, а по-другому получется только у настоящих звёзд. Я не настолько уверен в своей удаче, чтобы продолжать работать в академической среде. 🤓

Для разных карьерных путей придётся учиться разным вещам – если в индустрии вас скорее всего будут гонять по программированию и гномикам, в академии нужно научиться давать довольно специфические презентации о себе и своём рисёрче с большим упором на будущее. Оба пути объединяет одно: для успешного поиска последующей работы необходимо, чтобы вас знали (да-да, тот самый ненавидимый многими нетворкинг). Например, с моим текущим менеджером мы познакомились на конференции и он знал моего научного руководителя (хоть и не в лучшем возможном свете 🚨).

Как мне кажется, получить работу исследователя в крупной компании всё-таки чуть проще, чем профессора в tier-1 университете. Мест больше, да и уволить всё-таки могут не только за что-то совсем вопиющее. С другой стороны, за некоторый риск и компромиссы в рисёрче в индустрии платят больше. Кстати, неправда, что разрыв такой уж колоссальный для в tier-1 американских университетов – зарплата профессора там несильно отличается FAANG-овского миддла. 📈
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍2
Академия и индустрия: работа

Поговорим о некоторых различиях между работой в институте и индустриальной лабориторией. Мне кажется, основное – это различия в задачах: обычно, профессор – это про менеджмент и обучение студентов, рисёрчер в индустрии – это такой individual contributor, от которого ждут, что он будет делать рисёрч пока не выгорит. 🤤

Существенно различается и ситуация с ресурсами: в академии любую кроху нужно уметь выпрашивать у незнакомых анонимных людей – пости все ресурсы распределяются через заявки и гранты. В индустрии же гораздо больше ресурсов для проектов средних размеров доступны всем – бери и пользуйся. Нужно больше? Тут пригодится навык выпрашивания вещей у менеджмента, что проще, чем у анонимусов. 😑

Количество людей в институтской лаборатории непостоянно: студенты постоянно приходят и уходят. Профессору приходится овладевать навыками сильного проджект менеджера, иначе есть риск не отчитаться за финансирование и потерять места для будущих студентов. В этом смысле индустриальный рисёрч стабильнее в долгосрочном плане, но всё так же есть текучка людей. Из того, что я вижу – в индустриальном рисёрче люди реже меняют место работы – на самом деле, существует не так много мест, где наши скиллы пригождаются. Кстати, сменить карьеру на что-то ещё с индустриального рисёрча существенно проще, чем с академической позиции.

Работа над прикладными проектами – это, конечно, уникальная фича для индустриального рисёрча. С ней можно бодаться, но удобнее принять и научиться искать полезные проекты, которые кажутся интересными – примерно так же, как профессора учатся отчитываться любой статьёй за любой грант. У меня на прикладные вещи уходит примерно половина времени в году, но я не особо об этом жалею – в гугле довольно легко делать полезные проекты типа борьбы с дезинформацией, после чего хорошо спится по ночам.
Please open Telegram to view this post
VIEW IN TELEGRAM
🍓9👍74
Подобрал вам интересных постеров с первого дня ICML. Легко заметить, вкусы у меня специфичные. 🧃
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16
Решил чуть побольше рассказать о себе, чтобы дорогие читатели не думали, я только фото ковра тут пощу. Сегодня расскажу про образование.

В предыдущей серии мы узнали, что зовут меня Антон и работаю я в гугл рисёрче – в этом плане ничего не изменилось! Даже после слияния Google Brain и DeepMind наша команда осталась при "большом гугле". И Антоном меня всё ещё зовут. Стабильность.

Я попал туда в 2021 году после PhD, сделанного в Германии – начинал я в Hasso Plattner Institute в Потсдаме (Берлинские Мытищи, только покрасивее), в заканчивал в университете Бонна. Бонн – это такая деревня на триста тысяч человек, где можно ездить туда-сюда по Рейну на велосипеде и объедаться клубникой с поля летом. В целом, 5/7, могло быть и лучше, но клубника вывозит. Берлин до сих пор остался в моём сердечке – я считаю его одним из самых сбалансированно-хороших городов для жизни.

Во время PhD я успел сделать две рисёрч стажировки в гугле – в 2019 году в продуктовой команде, которая называлась counter-abuse technology, в кремниевой долине, а в 2020 – в собственно команде графовых алгоритмов. Кто ещё помнит, в 2020 году был такой ковид, поэтому примерно всю стажировку я просидел в своей комнате, которую я снял потому что было дёшево и быстро добираться до офиса. Ну, зато статьи писались довольно успешно. В Калифорнии я жил у широко известного в узких кругах Сашули, которого нашёл в ещё более небезызвестном сообществе ODS. Калифорния мне не понравилась – большая деревня с мальчиками-программистами и девочками-проджектами. Хотелось разнообразия.

До этого я делал магистратуру в Сколтехе ('14-'16), в первый год, когда они ещё даже аккредитацию не получили. С магистратурой связана забавная история – я заполнил онлайн-заявку и пребывал в полной уверенности, что меня не взяли. Письмо-приглашение на отбор улетело в спам, а на звонок в день отбора я чуть не проспал – как вообще можно звонить людям в субботу в 7 утра?! Сколтех тогда был классным местом с хорошими кадрами, но, конечно, продуманной программы обучения ждать не приходилось. Кстати, на самом деле там я и начал своё PhD – вот только моего научного руководителя тогда резко погнали на мороз (потому что не русский, лол), так что пришлось резко менять планы.

В совсем бородатые времена, когда динозавры ходили пешком по земле 🦆, я закончил факультет бизнес-информатики НИУ ВШЭ, который в нынешнее время известен как высшая школа менеджмента (боже упаси ✝️). Мне не очень нравилась перспектива быть бизнес-аналитиком и разговаривать с людьми, а вот программирование давалось довольно легко – я вел студенческие курсы и довольно много помогал другим. Тогда же я и познакомился с графами – на 4 курсе я узнал про кластеризацию графов, и решил сделать свой самый лучший алгоритм. Написал я его на C# и LinQ-лямбдах, так что сомневаюсь, что в мире есть хоть один человек в здравом уме, который сможет его прочитать и оценить по достоинству 📃. За работу мне тогда поставили 8 (5 с минусом по-человечески) и сказали с такими еретическими мыслями переться на факультет математики (ФКНа тогда не было). Штош.

Вот такая получилась история. При рассказе в обратном хронологическом порядке получается меньше неожиданных поворотов, конечно. 🥛
Please open Telegram to view this post
VIEW IN TELEGRAM
38🔥7❤‍🔥3👍2🆒2
Выбор места для эмиграции

Так получилось, что я прожил довольно много времени в разных странах, так что у меня образовались некоторые идеи про то, как стоит себе выбирать страну для переезда. Это – не абстрактные рассуждения в вакууме – когда я заканчивал PhD, пришлось активно думать, где продолжать жизнь – Германию я уже не рассматривал. Все люди разные, так что кому-то все эти мысли покажутся полным бредом и пост-фактум рационализацией моих жизненных решений. А кому-то, может, и не покажутся. Считаем, я предупредил.

Во-первых, каждый конкретный город может сильно отличаться от других в той же стране. Что тут говорить – я вырос в Москве, которая совсем не похожа на почти всю остальную Россию. Так же сильно отличается Берлин от Бонна – в Германии региональные различия гораздо более сильно выражены. В городе для меня важна неоднородность и культура – мне не нравится, например, финансовый Франкфурт или кремниевая долина со сплошными программистами. В этом смысле меня привлекают многие северно-европейские столицы – Берлин, Амстердам, Стокгольм, в меньшей степени Цюрих. Отдельно надо сказать, что Лондон я категорически не люблю. Как-то раз я приехал туда туристом, и понял, что я (1.95м) не помещаюсь в вагон метро. Не очень-то и хотелось, Лондон. 🖕

Тогда почему там и не остаться? Очень просто – я не увидел возможностей полноценной интеграции в общество. Даже те мои друзья в Германии, которые идеально выучили язык и общались почти исключительно с местными, не стали в концечном итоге полноценными немцами. Вот это чувство неполноценности для меня стало определяющим фактором – всё-таки хочется в конечном итоге почувствовать себя дома. 🗑

В дополнение к этому, надо ещё как-то, ну, знаете, жить и работать. Так получилось, что я предпочёл индустриальную карьеру академической, так что выбор потенциальных мест сократился до офисов крупных компаний с большими исследовательскими центрами. Да ещё и тех, куда возьмут (например, в яндекс рисёрч я не прошёл интервью). Вот как-то так и получился Нью-Йорк. С крысами на улицах, зато ужасно неоднородный и с живой и интересной культурой. 🧐
Please open Telegram to view this post
VIEW IN TELEGRAM
34🤔5👍4❤‍🔥1
Пока я отхожу от джетлага (и прочтения ревью с нипса 👉), решил собрать в одном месте наши выступления на ICML:

1. Слайды, запись и сайт туториала по Tensorflow-GNN
2. Презентация и постер нашей статьи с TAGML про оценку качества эмбеддингов – я про неё писал в канале
3. Постер мини-статьи с TAGML про наш фреймворк обучения структуры графов
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
Наткнулся в твиттере на вот такой график распределения силы отравления свинцом для США.

Тетраэтилсвинец – дьявольское соединение, созданное в прошлом веке для того, чтобы бензин в двигателе горел, а не взрывался. Иронично, что сам по себе тетраэтилсвинец приводит к образованию свинцового налёта в двигателе и ведёт к быстрому его отказу, поэтому вместе с ним в топливо добавляют так называемые выносители на основе соединений хлора или брома, которые создают канцерогенные летучие соединения. Уж лучше в лёгких, чем в наших дражайших моторах, ведь правда же? 😮‍💨

Помимо уже заспойлерённой высокой канцерогенности, соединения тетраэтилсвинца в детском возрасте ведут к нарушениям развития у детей 😛; довольно популярна гипотеза, что сильный рост преступности в СССР, начавшийся в 60х годах – это следствие массового отравления свинцом.

В этом смысле интересна гипотеза в твите про технологическую стагнацию с 1970х по 2010 годы – может, всё дело опять в свинце? 🤪

Ну а мы, конечно, ждём таких же исследований про микропластик.

P.S. График немного криво читается – по оси X там год, когда рассматривалась группа возрастом с 22 по 35 лет. То есть для 2000 года (локального максимума) годы рождения от 1965 до 1978.
Please open Telegram to view this post
VIEW IN TELEGRAM
😢65
Дубай

Тут в разных ИИ-каналах начали поститьстебать) рекламу инвестиций в недвижимость в Дубае, и я, как обычно, не могу остаться в стороне. В прошлом году меня занесло пожить на полгода в эту славную деревню, и она сильно поменяла то, как я смотрю на выбор жилья. Я успел пожить в четырёх "элитных" билдингах в Дубае, включая модно-молодёжную пятизвёздочную "рамку" Address с руфтоп-бассейном на 77 этаже, самым высоким в мире, конечно. 💁‍♂️

Дубай как город я ненавижу душой и сердцем. Проблема для меня в том, что многие процессы в городе построены на около-рабском труде за копейки. Это настолько выражено, что для иммигрантов существует два слова – белых и богатых называют экспатами, не очень белых и точно небогатых – иммигрантами. Доставка еды, обслуживание зданий, уборка песка и пыли – всё это делается иммигрантами из стран Африки и юго-восточной Азии, которые живут в бараках на 12 человек в комнате и получают в десятки раз меньше, чем средний владелец канала по ИИ трудяга в городе. От использования такого труда невозможно отказаться – например, я просто не мог выйти в магазин и купить то, что захочу – выбор товаров на доставку в разы больше.

Как ещё один пример, когда я искал себе квартиру, во многих предолжениях была небольшая – 5-7кв.м. – комнатка. Зачем? Для домработницы 🥹. И это действительно распространено – есть множество разных агентств, которые подбирают тебе домработниц, коорые живут с тобой в хоромах и занимаются уборкой и иногда готовкой. Можно подумать, что это какая-то причуда для шейхов, но я лично встречал русских эмигрантов, которые жаловались на ленивых домработниц. 😩

Строительство известной насыпной пальмы Джумейра уничтожило местный коралловый риф, а теперь эти острова погружаются обратно под воду. В 30% небоскрёбов в Дубаях канализация вывозится вручную специальными машинами 🦠, а здания устаревают быстрее, чем строят новые. Дубайские принцессы, которых регулярно похищают из Лондона, не добавляют привлекательности городу. Не покупайте там жильё, друзья. 😟
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18😢8👎3🔥2🤔1💔1
Эмиграция в США: мой таймлайн

На днях произошло радостное событие 🎃 – мне одобрили выдачу гринкарты, что завершило почти двухгодичный квест по эмиграции в США. Надеюсь, кому-нибудь поможет краткое описание процесса. Кстати, если будет интересно, могу написать краткий обзор по возможным вариантам.

В США всратая иммиграционная система, которая останавливает каждого второго и доставляет много попаболи каждому первому. Тем не менее, хотел я именно туда, так что выбрал путь эмиграции через так называемые визы талантов – O1 и EB1. Бабушка одобрила. 😛

O1 – неиммиграционная виза, по ней нужен работодатель, и работать можно оставаться всего лишь 3 года (можно продлевать). Зато при ускоренном рассмотрении (с вас $2500🤴) одобрение можно получить всего за две недели, и критерии там не сильно строгие – для учёных достаточно порядка 100 цитирований и h-индекс порядка 4-5.

С другой стороны, для ("экстраординарных") учёных есть отдельная категория гринкарт EB1-2, которая рассчитана на людей, которые работают в рисёрче от трёх лет. Спасибо, что часть моего опыта на PhD тоже засчитали – для этого подписывали специальное письмо от научника. Тут нам уже понадобится h-индекс потолще – я читал, что рекомендуют подаваться с более чем 300 цитированиями.

Решено было подаваться сначала на O1, а при въезде в стану перейти на EB1. В итоге таймлайн выглядел примерно так:

Апрель-май 2022 – сбор писем и доказательств с юристами 😎
24 июня 2022 – подача петиции i129 в USCIS
7 июля 2022 – одобрение петиции
5 августа 2022 – собеседование в посольстве; административная проверка
26 октября 2022 – получение визы O1

Переехал в США я в середине ноября 2022 года. 🎅

Апрель 2022 – обновляю документы, переподписываю два письма
10 мая 2023 – подача петиции i140 в USCIS
2 августа 2023 – одобрение петиции 😝

После одобрения i140 гринкарту получают примерно через полгода. В итоге весь иммиграционный путь займёт примерно полтора года 🐌 – хорошо, что по этой схеме можно начинать работать сразу со въезда в США. 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉366👎2🙉2🏆1
Сегодня последний день конференции KDD, где мы презентовали нашу практическую статью про то, как мы делаем эмбеддинги для очень больших графов; провели туториал про Tensorflow-GNN (да, опять); и организовали воркшоп про бенчмарки графовых моделей. На этом летний сезон выступлений Тейлор Свифт закончился, можно теперь и поработать со спокойной душой. ☕️

Про интересные вещи с конференции я расскажу в следующий раз, а пока держите небольшой лайфхак. Большие книжные издательства часто приезжают на конференциях со своими новинками. В последний день можно купить книжки со скидками до 60-80% – а если вы студент, иногда вам могут их отдать бесплатно. 📈

Я прикупил Introduction to Graph Signal Processing и Mathematical Analysis of Machine Learning Algorithms. 📃
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥132👎2
Самым горячим моментом KDD был провокационный туториал профессора Имона Кью под названием "Getting an h-index of 100 in Twenty Years or Less!". Зал был полон профессорами и студентами с потными ладошками, так и грезящими увеличением своего хирша. 👀

Индекс Хирша – один из недавно введённых (всего в 2005!), но уже ставший центральным наукометрический показатель. При всей пылкой нелюбви сообщества к этой метрике, она стала одним из влиятельных факторов в решениях о найме и повышении исследователей и привлечении грантов. Более того, исследователям с высоким хиршем помогает эффект Матфея – с более популярными исследователями больше хотят коллаборировать, в результате чего их хирш растёт как на дрожжах. 📈

Имон предлагает делать две вещи: во-первых, публиковать статью в открытом доступе как можно раньше, чтобы максимально воспользоваться эффектом Матфея до того, как статья устареет. Во-вторых, вручную помогать каждой статье набрать первые 5-10 цитирований при помощи "холодных" писем потенциально заинтересованным людям. При достаточной релевантности высока вероятность того, что они это письмо прочитают и вас процитируют. 📃

В восьмидесятых подобными образом действовали продюсеры, чтобы раскрутить поп-звёзд: они покупали 60-100 кассет в музыкальных магазинах, куда звонили с радиостанций, чтобы собрать их топ продаж. В результате таких махинаций песни с этих кассет начинали крутить на радио, что приводило к лавинообразному эффекту. 😎

Презентацию закину в комментариях к посту. Мне кажется, стратегия с "старта с толчка" применима во многих областях жизни. Что думаете? 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
14🥴7🤬2👍1🔥1👌1