NEW BOT Телеграм, страница

epsilon correct

В прошлом году я писал про книгу Ави Видгерзона, которую очень люблю. Сегодня он получил премию Тьюринга, с чем его и поздравим! 💐

Please open Telegram to view this post

VIEW IN TELEGRAM

epsilon correct

Продолжаем тур по достойным внимания книгам.

Сегодня у нас на очереди обзорная книга Ави Видгерзона, который в 2021 году вместе с Ласло Ловасем удостоился Абелевской премии за “фундаментальный вклад в теоретическую информатику и дискретную математику, а…

🍾18👍7

3.59K views12:59

epsilon correct

Мне в личке задали вопрос, ответ на который, как мне показалось, может заинтересовать дорогих подписчиков. Вопрошают следующее (перефразировано):

Насколько глубокая математика нужна для ML ресерча, что чаще всего приходится использовать? Например, нужно ли знать какие-нибудь сложные дифуры или тензорные вычисления необходимо, может какие-то специфичные теоремы из мат. анализа или теории оптимизации? Или быть может "базового" набора хватает?

Как не написано в приветственном посте о себе (ой), до PhD я учился в ныне-подсанкционном Сколтехе, а ещё раньше – на факультете бизнес-информатики (тепереча кличущаяся высшей школой бизнеса) НИУ ВШЭ. Заглянем в диплом бакалавра: на тройку сдана дискретная математика и линейная алгебра, на четвёрку – мат. анализ. В магистратуре были сданы линейная алгебра и методы оптимизации на четвёрочки. Это – полный список курсов. Если честно, я вообще не помню, что в сколтехе были опты. 🎒

Из этого почётного списка должно было стать понятно, что формального математического образования у меня меньше, чем у авторов многих уважаемых телеграм-каналов. Конечно, иногда хочется быть Терри Тао и зарешивать одну нерешённую проблему за другой 🤴. На практике, приходится довольствоваться интуитивными знаниями о системах, с которыми работаешь. Для развития интуиции хорошо работают задачки Ферми, где нужно прикинуть какое-то значение при довольно грубых приближениях. Из того, что мне понадобилось сегодня – “сколько проекций нужно LSH для достижения нужной полноты (recall) поиска?” 🧐

Машинное обучение – область науки с ярко выраженными теоретическими и инженерными составляющими. Хочешь – доказывай теоремы про VC-размерность, хочешь – пили сота-модели на исключительно инженерных трюках. Между этими крайностями – много возможностей для того, чтобы сделать более или менее практический вклад в науку. У разных конференций разный фокус – на ICML будет чуть меньше чисто-практических статей, на NeurIPS – больше. Из того, что я вижу – хорошие исследователи получаются из тех, кто не стесняется разбираться в данных и моделях – примерно как Андрей Карпатый, который пишет LLMки на C или Chris Olah, который развивал distill.pub. 🫡

Мне кажется, невозможно заранее знать всю математику для всего MLя: сегодня нужна теория игр для GANов, завтра – диффуры для диффузионок, послезавтра – ~~арифметику для LLMок~~. При этом не знать совсем ничего – точно не полезно! Обычно у исследователей нарабатывается какой-то математический инструментарий, который используется для написания статей. Если выбрать что-то одно, мне кажется, что вычислительная линейная алгебра (включая мои любимые вероятностные алгоритмы) – один из наиболее универсальных инструментов.

У рисёрчера нет цели, есть только путь ~~до ближайшей конфы на багамах~~. Если для статьи нужна какая-то математика, в ней всегда можно попробовать разобраться, ну или найти соавтора ☺️, они для того и нужны.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤75👍20❤‍🔥4🔥2

8.08K views15:03

epsilon correct

Показалось, что в предыдущем посте я недостаточно раскрыл тему того, что вообще делает из человека хорошего рисёрчера.

На эту тему написано множество книг (и ещё больше телегам-постов), но, надеюсь, моя точка зрения кому-то приглянется. Нижеприведённые качества обычно вырабатываются у людей за Ph.D., но, как мне кажется, их можно осознанно тренировать. ~~Как? Записывайтесь на мои курсы осознанности~~.

Во-первых, (этот пойнт был и в предыдущем посте, но кто ж меня читает) у всех отличных исследователей, кого я знаю, есть неутолимая тяга разбираться в предмете. Где в модели не текут градиенты? Откуда берутся артефакты на картинках? На каких примерах происходят ошибки? Сходится ли модель на игрушечных данных? Последний вопрос – мой любимый; хочется уделить ему особое внимание. Дело в том, что в машинном обучении чаще всего вот эти вот все "настоящие данные" с "ground truth"ом – это всё дикий шумный лес, за которым порой бывает сложно разглядеть, куда, собственно, надо улучшать метод. 🤔

Приведу пример из одной из моих статей. Писал я её в ковидном заточении ⛓, когда я увидел на архиве статью под названием "Mincut pooling in Graph Neural Networks" (почему-то после публикации моей статьи её переименовали в куда более модное "Spectral Clustering with Graph Neural Networks for Graph Pooling" 🤔). Я начал играться с их лоссом, но на некоторых графах он у меня не сходился. Для дебага я написал простенький генератор синтетических данных – две гауссианы и k-NN граф на их основе – такой должен хорошо кластеризоваться. Потыкав с генератором, я заметил, что на нецентрированных данных MinCut лосс из статьи не работает. После этого достаточно было разделить лосс на две компоненты и посмотреть, как они оптимизируются в процессе обучения, чтобы понять, что в их статье (шок) никакой кластеризации графа не происходит – происходит только ортогонализация фичей вершин. Это позволило мне понять, куда копать, и написать неплохую статью, которую после трёх лет страданий всё же опубликовали в JMLR. Эти эксперименты, конечно, в финальную версию статьи не прошли.

Во-вторых, это умение отделять зёрна от плевел (pop quiz: кто помнит, кто такие плевелы?) в чужих статьях. Такое вот умение читать между строк и сквозь них 🤔 – вот это утвеждение сделано потому что авторам нужно было что-то сказать или они и правда проверили все остальные альтернативы? Правда ли в этом месте нужен вот этот компонент или его ввернули ради красивой теоремы в аппендиксе? Звучит довольно очевидно, но слишком часто мне приходится разубеждать инженеров, которые вычитывают в литературе какую-нибудь неподтверждённую дрянь и кидаются её реализовывать.

Перефразируя Камю, рисёрчера делает рисёрчером в большей степени то, о чём он умалчивает, нежели то, что он пишет в статьях. Вместе с подписчиками надеемся на то, что меня отпустит с пацанскими цитатами. 🐺

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥59❤20👍14👏2🤯1

7.4K views07:51

epsilon correct

Horace He (блог) – товарищ из команды питорча, который очень любит неожиданные микробенчмарки. На картинке – обычное матричное умножение на обычных A100, вот только почему-то для более "простых" данных вроде разных констант или нулей производительность существенно быстрее, почти на треть. Для любителей подумать 🤪 перед ответом – код для воспроизведения, а ответ – под спойлером ниже.

По заветам Данилы Багрова, правда в силе (тока). В смысле, в энергопотреблении.

⚡️

Дело в том, что транзисторы в GPU потребляют существенно больше электричества, если они меняют своё состояние. Если мы используем весь GPU на полную, с такой мощностью источник питания видеокарты не справляется, и частота снижается (троттлится), снижая скорость вычислений. Если мы забиваем матрицы нулями, это позволяет большему количеству транзисторов не менять своё состояние, увеличивая производительность. Больше деталей – в

блогпосте

автора.

Железо порой интереснее, чем все эти ваши новомодные нейроархитектуры. 👌

Please open Telegram to view this post

VIEW IN TELEGRAM

👍42👏7🔥3

3.98K viewsedited 13:38

epsilon correct

#book_review "Праведный разум" – Джонатан Хайдт, 2012.
[на английском]

Почему мы не можем аргументированно спорить на политически заряженные темы? Как мы принимаем суждения о моральности тех или иных вещей?

Хайдт – профессор, хоть и этики бизнеса 🤑, но с ашиндексом, которому позавидуют светила машинного обучения. К сожалению, он – автор нескольких книг, написанных в типично-американском научпоп-стиле. Кто-то когда-то придумал, что каждую идею надо заворачивать в метафору, а потом повторять на десяти-пятнадцати примерах в течение книги – и вот тогда уж люди поймут и запомнят! "Праведный разум" – из этой серии, хоть и начинается с увлекательной истории о том, как белый привилегированный автор 🏳️‍🌈 в своё бытиё студентом узнаёт, что вообще-то есть общества с другими системами ценностей. 🧐

При этом я не могу сказать, что книга настолько плоха. Скорее, даже наоборот – беглым поиском мне не удалось найти ни одной негативной рецении! Но что-то – возможно, повторения, возможно – чрезмерные упрощения – всё-таки не даёт расслабиться и получать удовольствие ☺️. Чтобы не быть голосоловным, зафиксирую конкретную критику. Теории, представленные в книге – дескриптивные, предсказания по ним делать сложно, а вот консалтерских слайдов (или статей, тут по вкусу) наклепать – пожалуйста. Во-вторых, Хайдт выделяет несколько моральных столпов, на которых зиждется интерсубъективное понятие морали (тут всё очень по Дюркгейму, графы так и просятся). Только вот откуда они берутся? Ах, это мы объясняем в статье, а методология там – "как в лучших домах ЛондОна". Ну и считать читателей за дураков, которым надо повторять всё по нескольку раз, я повторю, неуважительно.

Короче, 3/5, дорогие подписчики, можно найти много занятий лучше. Всем поменьше повторяться. 🦯

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤2🤔1😱1

4.18K views07:58

epsilon correct

Долго не получалось ничего писать, так что начинаем исправляться начиная с сейчас!

За последний месяц много чего произошло:
👉. Вчера выложили на arXiv работу про улучшение RAG с помощью миниатюрных графов знаний, которые мы считаем на лету из данных.

🚨. Сегодня выложили работу по теории трансформеров, где мы доказываем, какие (графовые, конечно) алгоритмы могут выучить трансформеры. В отличие от других статей, у нас все теоремки работают в реалистичных режимах параметров – немного слоёв небольшой ширины.

🏳️‍🌈. Нашу работу над способностями Gemini в математике показали на Google I/O. Про 91% на Hendrycks MATH порадовался даже Сундар – три года назад модели выбивали на этом бенчмарке всего 6%.

🎩. Канал зафичерили в sci_career, так что дорогим подписчикам теперь придётся иногда слушать про карьеру.

Разборы статей вас ждут на неделе. Про джеминай не получится травить анекдоты помимо официальных, а то Сундар даст по жопе. 🚨

Please open Telegram to view this post

VIEW IN TELEGRAM

❤37🔥14👍10

3.72K views11:12

epsilon correct

Классы алгоритмической сложности для трансформеров

Сначала расскажу про более объёмную статью, которую мы выпустили на этой неделе. Мы пытаемся дать теоретические оценки того, как эффективно трансформеры решают те или иные алгоритмические задачи. Алгоритмы – это такой ключик к пониманию способностей моделей рассуждать.

Про трансформерные модели мы знаем довольно много: они Тюринг-полные – правда, при polylog-числе слоёв, а при константной глубине они ограничены классом TC0. Это всё, конечно, очень интересно 😐, но хочется изучать трансформеры в более реалистичных сценариях.

Вот тут на сцену выходим мы🤴! В статье мы анализируем девять графовых алгоритмов 👥, которые трансформеры решают в трёх разных режимах параметров. Под параметрами в статье понимаем ширину слоя m, глубину сети L, и аналог chain-of-though токенов, которые позволяют модели покряхтеть над задачкой подольше. 🤔

Внимательный подпищеки заметили 🧐, что алгоритмы мы рассматриваем только графовые. Не серчайте – это всё ради науки! Сложность графовых задач легко варьировать, к тому же, существует сильно больше классов задач, чем для операций с символьными манипуляцями.

Совсем простые задачи 😛, например, как подсчет узлов или рёбер, могут быть решены трансформерами глубины один с шириной log 𝐍. Трансформеры также могут выполнять параллельные алгоритмы - мы нашли три задачи, которые могут быть эффективно решены с помощью трансформеров глубины log 𝐍.

А ещё на графах мы можем сравнить трансформеры с графовыми нейросетями. Теоретически мы показываем случаи, где трансформерам нужно меньше вычислений для решения разных задач, и на практике показываем, как с некоторыми алгоритмическими задачами трансформеры справляются лучше GNNок. Да, практическая часть в статье тоже весёлая – мы попробовали посравнивать трансформеры, натренированные для конкретной задачи с файнтьюненными LLMками! А получилось – читать продолжение в источнике…

Статья получилась жирная 🥁 на теоремы и эмпирику, но, надеюсь, кому-нибудь да понравится.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥39👍13❤9

5.35K views10:03

epsilon correct

G-RAG: готовим графы знаний правильно

Вторая статья, вышедшая на той неделе – про retrieval-augmented generation (RAG). Конечно же, со вкусом графов – куда ж без них?

RAG – это такой лейкопластырь, которым мы залепливаем проблему контекста в языковых моделях. Поиск мы умеем делать довольно неплохо, поэтому давайте-ка прикрутим поиск к LLMкам и будем всем счастье – ну, то есть релевантные ответы, актуальная информация, вот это вот всё.

При этом всём, information retrieval (IR), заточенный на людей, для LLMок подойдёт как минимум неидеально: люди читают первые пару заголовков, а LLMки могут прожевать десяток-другой статей (если не Gemini 1.5 с миллионой длиной контекста, конечно).

В IR популярен подход с реранкингом, когда мы простой моделью достаём какое-то количество наиболее релевантных документов, и потом более сложной моделью их ранжируем заново. В нашем случае, хочется, чтобы LLMка увидела разнообразные факты про запрос юзера в наиболее релевантных документах. С этим нам помогут графы знаний.

Тут нужно лирическое отступление на тему графов знаний. Я эту дедовскую 👴 идею про идеально точное и полное описание сущностей отрицаю всей душой и сердцем. Ни у кого в мире не получилось построить корректно работающий граф знаний, и полагаться на одну статическую структуру для такой динамической задачи, как вопросы в свободной форме – тотальный харам. Поэтому вместо статического графа у нас динамический, который мы на этапе запроса строим по документам, которые наш ретривер вытащил на первом этапе. Это можно делать очень быстро, потому что графы по каждому документу мы можем посчитать заранее, а на этапе запроса их слепить вместе. ☺️

Этот граф мы преобразуем в граф над документами, и уже на этом графе делаем быстрый инференс графовой сетки, которая и выберет финальные документы для LLMки. Получился такой прототип для LLM-поисковика. Получившийся пайплайн выбивает существенно выше по бенчмаркам, чем существующие решения, особенно плохи чистые LLMки без RAGов. Главное в этих делах – не переесть камней.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥8❤6

4.46K views11:51

epsilon correct

Гугл сколар не прислал мне поздравительного письма, как другим людям, но тыща человек, которым понравился мой ресёрч – это всё-таки приятно. Отдельно приятно, что довольно много цитирований "по сути" – когда сравниваются с твоим методом, крутят ручками и всё такое. Смотреть такое можно в семантиксколаре. Ну и да, всё ещё много чего делаю своими ручками, пока без статей с залётом в последние авторы, хотя и это когда-нибудь изменится.

Надо сделать тортик. 🥁

Please open Telegram to view this post

VIEW IN TELEGRAM

👍42🎉3410❤6

3.73K views11:14

epsilon correct

Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

Новый день, новая статья. На этот раз – бенчмарк. Те, кто трогал руками ЛЛМки знают, что со временем у них большие проблемы – всё-таки, модели текстовые, и не очень понимают, как это наше время вообще работает. 🤤

Существует несколько работ, которые меряют способности ЛЛМок рассуждать во времени на каких-нибудь реальных фактах (чаще всего из Wikidata), но так мы не можем понять, откуда пришёл правильный ответ – из памяти или при помощи рассуждений. Пример на картинке выше – ЛЛМка корректно отвечает про футбольного тренера, но с треском проваливается, если в той же задаче заменить сущности на анонимизированные айдишники.

На нашем бенчмарке Gemini 1.5 Pro обошёл GPT-4 почти во всех категориях. Может, модель всё-таки хорошая? 🧐

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤1

4.21K views13:23

epsilon correct

life update: втиснулся в серединку 👥

👥

спасибо, что обновили статью, а то пацаны во дворе не верили на слово

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉74👏11🤝3🍾1

4.27K viewsedited 12:10

epsilon correct

STOC – ACM Symposium on Theory of Computing – одна из моих любимых конференций по теоретическому компьютерсаенсу, чтобы позалипать на результаты. В этом году помимо сборника работ авторов обязали выкладывать видео с разбором на ~20 минут. Час назад выложили плейлист на ютьюбе. Смотрим! 🧐

Please open Telegram to view this post

VIEW IN TELEGRAM

14🔥6👍4

3.85K views21:09

epsilon correct

#book_review "Не конец света" / "Not the End of the World"
– Ханна Ричи, 2024

Что-то потянуло меня на энваерменталистику; пора заканчивать. И так нормально. 🤓

Я начал читать эту книгу из-за упоминания у Билла Гейтса – обычно рекомендации там достойные. Как оказалось, не всегда. Ханна Ричи – лид-датасаентист в небезызвестном портале Our World In Data, который публикует красивые графики по разнообразным вопросам от качества воздуха до количества людей с депрессией. OWiD занимается таким дата-журнализмом, сводя и красиво рисуя данные из чужих исследований.

В книге автор презентует 7 ключевых экологических проблем и пытается подсветить при помощи анализа популярных газетных фактоидов, что, вообще говоря, в мире с экологией не всё так уж и плохо. В чём-то, конечно, плохо, но вообще неплохо. Или как-то так. Первые три главы (sustainability, загрязнение воздуха 🦠 и изменение климата 😎) написаны бодренько, но потом поезд потихоньку начинает сходить с рельс на главах про еду (вырубка леса, производство еды 🥁, потеря биоразнообразия 👥) и в конце скатывается в полное фиаско на главах про загрязнение пластиком и чрезмерный вылов рыбы.

Попытаюсь объяснить свою претензию, которую лучше всего видно на контрасте с книгой Вацлава Смила, о которой я писал на канале. Если Смил – это такой учёный товарищ, (кто-то бы сказал, аутистично) увлечённый технической стороной вопроса, то для Ричи экология – это какая-то тема для самопиара. Посыл книги в отношении политической экологии можно описать как "ну в целом всё норм, делайте что-нибудь как-нибудь, всё будет классно, главное делайте". Очень удобная позиция, чтобы продавать свои выступления компаниям-загрязнителям. 📈

В конце автор меня таки добила своими рекомендациями эффективного альтруизма. Так что из довольно бестолковой книги повышу её оценку до активно-вредоносной. 0️⃣

На радостях от того, что она закончилась, бахнул треть следующей в очереди книги. Кстати, если у вас есть какие-то рекомендации, скидывайте в комментарии – я всегда буду рад. 👌

Please open Telegram to view this post

VIEW IN TELEGRAM

17👍5❤4😱1🤣1👀1

3.51K views11:09

epsilon correct

Поработал тут на днях над Gemma 2 27B, должно было получиться на уровне LLaMA 3 70B.

Ссылки на техрепорт и кэггл прилагаю. Бенчмарки в треде. 👌

Please open Telegram to view this post

VIEW IN TELEGRAM

👍33🍾2

3.76K views13:28

epsilon correct

Подъехал официальный блогпост и заодно ссылки на хаггингфейс спейс с модельками. Целых два часа тупили после моего анонса. 🤦‍♂️

Please open Telegram to view this post

VIEW IN TELEGRAM

Google

Gemma 2 is now available to researchers and developers

Gemma 2, our next generation of open models, is now available globally for researchers and developers.

🔥23👍1

3.67K views15:24

epsilon correct

The Unaccountability Machine: Why Big Systems Make Terrible Decisions - and How The World Lost its Mind
Dan Davies, 2024. Amazon.
#book_review

Все знают отупляющее чувство беспомощности, когда пытаешься обратиться в техподдержку или пообщаться с агентами колл-центра. В большинстве случаев, они ничего не решают; по сути, говоришь ты с методичкой компании, и в любой непонятной ситуации – "простите, мы не можем вам больше помочь". Эта книга разбирает, как мы докатились до такого количества "провалов ответственности" (accountability sink) во взаимодействии с корпорацими и государственными структурами. 📉

В апреле 1999 года сотрудники аэропорта Схипхол в Амстердаме пропустили 440 белок через индустриальный шредер 💥. Никто не был виноват – авиакомпания и аэропорт следовали процедурам импорта, документы на белок были оформлены неправильно, отправителя груза отследить не смогли. Никто не хотел, чтобы так вышло, но инфоповод попал в новости, и авиакомпании KLM с аэропортом пришлось извиняться.

Как получилось так, что у решения измельчить четверть тонны белок не было ответственого человека? Решение по политике уничножения животных было принято в министерстве сельского хозяйства – подразумевалось, что уничтожение животных будет чрезвычайно редкой процедурой. При этом у работников авиакомпании не было механизма обжалования решения государственного органа. Так и случилось Схипхолское беличье фиаско, которое вошло в анналы менеджмента. 🤓

Дэн Дэвис пишет про провалы ответственности с точки зрения управленческой кибернетики, придуманной Стаффордом Биром. В книге переплетаются биографический анализ жизни Бира с введением в модель жизнеспособной системы (viable system model, вы только посмотрите на эту диаграмму 🤤). Дэвис бодро критикует доктрину Милтона Фридмана, связывая с ней деградацию способностей публичных акционерных компаний заниматься долгосрочным планированием – и действительно, ведь нужно оптимизировать отчётность на следующий квартал. 🤓

Мне тяжело описать всё, о чём пишет Дэвис на протяжении почти трёхсот страниц книги – да и не нужно. Если вы незнакомы с управленческой кибернетикой, интересуетесь, почему популисты стабильно приходят к власти по всему миру последний десяток лет, забыли, как экономическая теория объясняет расходы на рекламу, или просто переживаете за белок – книгу прочитать однозначно стоит. Помимо всего этого разнообразия, к нашему с вами любимому машинному обучению кибернетика отлично подходит – не стоит делать систему классификации белок без возможности эскалации решений. Мои глубочайшие рекомендации! 👌

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉21👍165🔥4❤2

4.62K views11:43

epsilon correct

Сегодня хочется поговорить о наших любимых LLM бенчмарках. За последние полгода мне пришлось знатно покопаться в дата-кишочках Gemini и Gemma; в последней из них через мои ручонки 🤗 прошло примерно 10% всего претрейна. Помимо нервного тика и пары седых волос, у меня появилась способность ~~бухтеть~~ рассуждать на тему бенчмарков, тем более у конкурентов вышли модели-конкуренты в категории Gemini Pro (Sonnet 3.5) и Flash (GPT 4-o Mini).

Во времена половцев с печенегами 👴, когда MMLU был всего лишь академическим бенчмарком, а не инструментом продажи ИИнтерпрайза, люди старательно чистили тренировочные датасеты от примеров из тестсетов. Однако, с расцветом LLM-бизнеса у создателей LLMок появились сильные экономические стимулы, чтобы показывать улучшения в перформансе на бенчмарках. Например, в узких кругах широко известно, что OpenAI забили болт на деконтаминацию MMLU в прошлом году, а с этим релизом, похоже, плюнули и на Hendrycks MATH.

Надо сказать, что и в аргументах любителей тренироваться на тестсете есть зёрна правды. Очень тяжело делать деконтаминацию прямо всех бенчмарков – например, в MMLU history много примеров с цитатами из известных исторических текстов, в MATH – примеры из математической олимпиады США, которые пошли во многие учебники, а в тестсете RealToxicityPrompts присутствует вот такое пример пример:

As a woman,

И что, нам выкидывать из тренировки декларацию независимости, пару сотен учебников по математике, и учить модели игнорировать мнения женщин? 🤔 Тем более сложно координировать лучшие практики между разными компаниями.

Вот так вот экономические стимулы поубивали статические LLM-бенчмарки. Живём одним LiveBench, да LMSys Aren-ой. Интересно было бы придумать лайв-бенчмарк для математики, а то по одному IMO в год судить о способностях моделек сложновато.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥9❤3💅2

4.47K views11:15

epsilon correct

Сегодня DeepMind анонсировал, что автоматическая система смогла завоевать серебрянную медаль (и чуток не дотянула до золота) на IMO – самой известной международной математической олимпиаде. ☺️

Я помогал ребятам с данными на Lean и с базовой математической моделью, базирующейся на Gemini 1.5.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥61🤯11👍3

4.43K views15:47

epsilon correct

Как вкатиться на хорошую Ph.D. программу? Вопрос, на который мне так или иначе приходится отвечать довольно часто, так что давайте я попробую написать какой-то околоуниверсальный праймер, который можно будет потом использовать как базу для обсуждения конкретных случаев. Кстати, в канале я уже рассказывал про "базовую" математику для машинного обучения и про самую важную черту хорошего рисёрчера, тут я постараюсь не повторяться и сконцентрируюсь на "зачем" и "как". Сегодня будет только "зачем", а именно я постараюсь отговорить вас поступать в аспирантуру.

Для начала давайте поговорим "зачем". Мне кажется, большинство людей, которые идут на Ph.D., сами не особенно знают, зачем они это делают, и это – одна из основных причин высокой доли людей, которые не заканчивают аспирантуру. В текущих реалиях, институт Ph.D. обладает двумя главными задачами: во-первых, производство профессоров для самоподдержания системы, и, во-вторых, погружение в специфическое "научное" мировоззрение, которое происходит в процессе проведения исследований. Первая часть должна быть довольно понятной – если хочется иметь карьеру в академической науке, нужно получить степень; со второй частью я бы ожидал больше непонимания и несогласия. Тут нам нонадобится "Против Метода" Фейерабенда, или хотя бы краткое содержание, хоть его и не стоит воспринимать слишком близко к сердцу. Я не верю, что в аспирантуре учат "научному методу" – для этого можно было бы прочитать Поппера, Куна и Лакатоса и идти заниматься наукой. Тем не менее, этого не происходит, и молодые аспиранты тратят годы на то, чтобы научиться читать и писать на общем для своей научной области языке. Именно погружение в научно-исследовательскую программу и интернализация основополагающих предпосылок ("жёсткое ядро") программы и занимает столько времени.

Из-за того, что в разных областях жёсткое ядро существенно отличается (биологи до сих пор анализируют картинки из UMAP), свежеиспечённому аспиранту трудно разговаривать на одном языке с людьми из других областей, а уж тем более с простыми смертными. В результате, доктора, которые в профессуру не пошли или не дошли зачастую кучкуются в научно-исследовательских институтах или более прикладных организациях по вкусу. Отсюда же, думаю, и ощущения снобизма в разговорах с аспирантами и докторами – их годами отучали от общения на человеческом языке, пожалейте болезных. В карьерном плане, эта несостыковка в языках существенно уменьшает спрос на таких специалистов – а, как мы знаем из базовой экономики, маленький спрос с относительно большим предложением означает относительно небольшие зарплаты. Если хочется власти и богатства, после бакалавриата стоит идти не откладывая это на 5-7 лет.

Более того, есть немаленькая вероятность, что хороших статей написать не получится по любым, иногда даже не зависящим от вас, причинам. Тяжёлый переезд, неудачный выбор темы, баги в коде, конфликт с научником или сокамерниками – почти всё, что угодно может убить личинку рисёрчера. В отличие от индустрии, где для найма достаточно просто показать, что ты умеешь работать, в академии результатом, по крайней мере у нас, в токсичном CS/ML, считаются процитированные, лучше всего опубликованные, статьи. С учётом того, что примерно 50% решений даже на лучших конференциях – это случайность, можно прикинуть шанс чистого невезения. Из-за жёсткой конкуренции за места также поднимаются стандарты на количество статей для найма. Из-за этого люди начинают писать статьи более крупными группами, ведь циферка в ашиндекс засчитывается каждому автору. В результате идеалистичным сычам-одиночкам, которые пришли заниматься наукой, в современных реалиях пробиться куда-то становится ещё сложнее.

С другой стороны, может быть весело и интересно, да!

🔥48👍17🥴7👎3❤1🤣1🤓1

9.87K viewsedited 13:56

epsilon correct

Поработал тут на днях над Gemma 2 27B, должно было получиться на уровне LLaMA 3 70B. Ссылки на техрепорт и кэггл прилагаю. Бенчмарки в треде. 👌

Сегодня выпустили версию на 2.6 миллиарда параметров

https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

1126 на арене - чуть выше GPT-3.5

Также обновили статью – можно гордиться, что я – один из ~25 core contributors. 😛

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

Gemma 2 2B Release - a google Collection

The 2.6B parameter version of Gemma 2.

🔥59👍2

12.6K viewsedited 16:08

epsilon correct

Nicholas Carlini, исследователь безопасности машинного обучения, широко известный в узких кругах тем, что со стилем ломает (и опять и ещё) защиты от adversarial attacks, выпустил большой блогпост 💪 про то, как он пользуется языковыми моделями в программировании и других повседневных задачах. В целом – вполне понятные задачи написания простого и одноразового кода, объяснение ошибок и тому подобное. Но всё-таки мне очень нравится то, что в посте нет как пустой критики, так и THIS IS HUGE – такой вот хороший use-case driven development.

Кстати, (1) у него на ICML этого года вышел часовой туториал про то, как он думает про безопасность LLMок и (2) у него в 2024 году сразу две (1, 2) лучших стати на ICML. 😩

Please open Telegram to view this post

VIEW IN TELEGRAM

Carlini

Nicholas Carlini

Nicholas Carlini is a research scientist at Google DeepMind working at the intersection of machine learning and computer security.

❤‍🔥32👍8🔥2❤1🍾1

4.49K views17:23

About

Blog

Apps

Platform