Гугл сколар не прислал мне поздравительного письма, как другим людям, но тыща человек, которым понравился мой ресёрч – это всё-таки приятно. Отдельно приятно, что довольно много цитирований "по сути" – когда сравниваются с твоим методом, крутят ручками и всё такое. Смотреть такое можно в семантиксколаре. Ну и да, всё ещё много чего делаю своими ручками, пока без статей с залётом в последние авторы, хотя и это когда-нибудь изменится.
Надо сделать тортик.🥁
Надо сделать тортик.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🎉34 10❤6
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning
Новый день, новая статья. На этот раз – бенчмарк. Те, кто трогал руками ЛЛМки знают, что со временем у них большие проблемы – всё-таки, модели текстовые, и не очень понимают, как это наше время вообще работает.🤤
Существует несколько работ, которые меряют способности ЛЛМок рассуждать во времени на каких-нибудь реальных фактах (чаще всего из Wikidata), но так мы не можем понять, откуда пришёл правильный ответ – из памяти или при помощи рассуждений. Пример на картинке выше – ЛЛМка корректно отвечает про футбольного тренера, но с треском проваливается, если в той же задаче заменить сущности на анонимизированные айдишники.
На нашем бенчмарке Gemini 1.5 Pro обошёл GPT-4 почти во всех категориях. Может, модель всё-таки хорошая?🧐
Новый день, новая статья. На этот раз – бенчмарк. Те, кто трогал руками ЛЛМки знают, что со временем у них большие проблемы – всё-таки, модели текстовые, и не очень понимают, как это наше время вообще работает.
Существует несколько работ, которые меряют способности ЛЛМок рассуждать во времени на каких-нибудь реальных фактах (чаще всего из Wikidata), но так мы не можем понять, откуда пришёл правильный ответ – из памяти или при помощи рассуждений. Пример на картинке выше – ЛЛМка корректно отвечает про футбольного тренера, но с треском проваливается, если в той же задаче заменить сущности на анонимизированные айдишники.
На нашем бенчмарке Gemini 1.5 Pro обошёл GPT-4 почти во всех категориях. Может, модель всё-таки хорошая?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤1
life update: втиснулся в серединку 👥 👥 👥
спасибо, что обновили статью, а то пацаны во дворе не верили на слово
спасибо, что обновили статью, а то пацаны во дворе не верили на слово
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉74👏11🤝3🍾1
STOC – ACM Symposium on Theory of Computing – одна из моих любимых конференций по теоретическому компьютерсаенсу, чтобы позалипать на результаты. В этом году помимо сборника работ авторов обязали выкладывать видео с разбором на ~20 минут. Час назад выложили плейлист на ютьюбе. Смотрим! 🧐
Please open Telegram to view this post
VIEW IN TELEGRAM
#book_review "Не конец света" / "Not the End of the World"
– Ханна Ричи, 2024
Что-то потянуло меня на энваерменталистику; пора заканчивать. И так нормально.🤓
Я начал читать эту книгу из-за упоминания у Билла Гейтса – обычно рекомендации там достойные. Как оказалось, не всегда. Ханна Ричи – лид-датасаентист в небезызвестном портале Our World In Data, который публикует красивые графики по разнообразным вопросам от качества воздуха до количества людей с депрессией. OWiD занимается таким дата-журнализмом, сводя и красиво рисуя данные из чужих исследований.
В книге автор презентует 7 ключевых экологических проблем и пытается подсветить при помощи анализа популярных газетных фактоидов, что, вообще говоря, в мире с экологией не всё так уж и плохо. В чём-то, конечно, плохо, но вообще неплохо. Или как-то так. Первые три главы (sustainability, загрязнение воздуха🦠 и изменение климата 😎 ) написаны бодренько, но потом поезд потихоньку начинает сходить с рельс на главах про еду (вырубка леса, производство еды 🥁 , потеря биоразнообразия 👥 ) и в конце скатывается в полное фиаско на главах про загрязнение пластиком и чрезмерный вылов рыбы.
Попытаюсь объяснить свою претензию, которую лучше всего видно на контрасте с книгой Вацлава Смила, о которой я писал на канале. Если Смил – это такой учёный товарищ, (кто-то бы сказал, аутистично) увлечённый технической стороной вопроса, то для Ричи экология – это какая-то тема для самопиара. Посыл книги в отношении политической экологии можно описать как "ну в целом всё норм, делайте что-нибудь как-нибудь, всё будет классно, главное делайте". Очень удобная позиция, чтобы продавать свои выступления компаниям-загрязнителям.📈
В конце автор меня таки добила своими рекомендациями эффективного альтруизма. Так что из довольно бестолковой книги повышу её оценку до активно-вредоносной.0️⃣
На радостях от того, что она закончилась, бахнул треть следующей в очереди книги. Кстати, если у вас есть какие-то рекомендации, скидывайте в комментарии – я всегда буду рад.👌
– Ханна Ричи, 2024
Что-то потянуло меня на энваерменталистику; пора заканчивать. И так нормально.
Я начал читать эту книгу из-за упоминания у Билла Гейтса – обычно рекомендации там достойные. Как оказалось, не всегда. Ханна Ричи – лид-датасаентист в небезызвестном портале Our World In Data, который публикует красивые графики по разнообразным вопросам от качества воздуха до количества людей с депрессией. OWiD занимается таким дата-журнализмом, сводя и красиво рисуя данные из чужих исследований.
В книге автор презентует 7 ключевых экологических проблем и пытается подсветить при помощи анализа популярных газетных фактоидов, что, вообще говоря, в мире с экологией не всё так уж и плохо. В чём-то, конечно, плохо, но вообще неплохо. Или как-то так. Первые три главы (sustainability, загрязнение воздуха
Попытаюсь объяснить свою претензию, которую лучше всего видно на контрасте с книгой Вацлава Смила, о которой я писал на канале. Если Смил – это такой учёный товарищ, (кто-то бы сказал, аутистично) увлечённый технической стороной вопроса, то для Ричи экология – это какая-то тема для самопиара. Посыл книги в отношении политической экологии можно описать как "ну в целом всё норм, делайте что-нибудь как-нибудь, всё будет классно, главное делайте". Очень удобная позиция, чтобы продавать свои выступления компаниям-загрязнителям.
В конце автор меня таки добила своими рекомендациями эффективного альтруизма. Так что из довольно бестолковой книги повышу её оценку до активно-вредоносной.
На радостях от того, что она закончилась, бахнул треть следующей в очереди книги. Кстати, если у вас есть какие-то рекомендации, скидывайте в комментарии – я всегда буду рад.
Please open Telegram to view this post
VIEW IN TELEGRAM
Подъехал официальный блогпост и заодно ссылки на хаггингфейс спейс с модельками. Целых два часа тупили после моего анонса. 🤦♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Google
Gemma 2 is now available to researchers and developers
Gemma 2, our next generation of open models, is now available globally for researchers and developers.
🔥23👍1
The Unaccountability Machine: Why Big Systems Make Terrible Decisions - and How The World Lost its Mind
Dan Davies, 2024. Amazon.
#book_review
Все знают отупляющее чувство беспомощности, когда пытаешься обратиться в техподдержку или пообщаться с агентами колл-центра. В большинстве случаев, они ничего не решают; по сути, говоришь ты с методичкой компании, и в любой непонятной ситуации – "простите, мы не можем вам больше помочь". Эта книга разбирает, как мы докатились до такого количества "провалов ответственности" (accountability sink) во взаимодействии с корпорацими и государственными структурами.📉
В апреле 1999 года сотрудники аэропорта Схипхол в Амстердаме пропустили 440 белок через индустриальный шредер💥 . Никто не был виноват – авиакомпания и аэропорт следовали процедурам импорта, документы на белок были оформлены неправильно, отправителя груза отследить не смогли. Никто не хотел, чтобы так вышло, но инфоповод попал в новости, и авиакомпании KLM с аэропортом пришлось извиняться.
Как получилось так, что у решения измельчить четверть тонны белок не было ответственого человека? Решение по политике уничножения животных было принято в министерстве сельского хозяйства – подразумевалось, что уничтожение животных будет чрезвычайно редкой процедурой. При этом у работников авиакомпании не было механизма обжалования решения государственного органа. Так и случилось Схипхолское беличье фиаско, которое вошло в анналы менеджмента.🤓
Дэн Дэвис пишет про провалы ответственности с точки зрения управленческой кибернетики, придуманной Стаффордом Биром. В книге переплетаются биографический анализ жизни Бира с введением в модель жизнеспособной системы (viable system model, вы только посмотрите на эту диаграмму🤤 ). Дэвис бодро критикует доктрину Милтона Фридмана, связывая с ней деградацию способностей публичных акционерных компаний заниматься долгосрочным планированием – и действительно, ведь нужно оптимизировать отчётность на следующий квартал. 🤓
Мне тяжело описать всё, о чём пишет Дэвис на протяжении почти трёхсот страниц книги – да и не нужно. Если вы незнакомы с управленческой кибернетикой, интересуетесь, почему популисты стабильно приходят к власти по всему миру последний десяток лет, забыли, как экономическая теория объясняет расходы на рекламу, или просто переживаете за белок – книгу прочитать однозначно стоит. Помимо всего этого разнообразия, к нашему с вами любимому машинному обучению кибернетика отлично подходит – не стоит делать систему классификации белок без возможности эскалации решений. Мои глубочайшие рекомендации!👌
Dan Davies, 2024. Amazon.
#book_review
Все знают отупляющее чувство беспомощности, когда пытаешься обратиться в техподдержку или пообщаться с агентами колл-центра. В большинстве случаев, они ничего не решают; по сути, говоришь ты с методичкой компании, и в любой непонятной ситуации – "простите, мы не можем вам больше помочь". Эта книга разбирает, как мы докатились до такого количества "провалов ответственности" (accountability sink) во взаимодействии с корпорацими и государственными структурами.
В апреле 1999 года сотрудники аэропорта Схипхол в Амстердаме пропустили 440 белок через индустриальный шредер
Как получилось так, что у решения измельчить четверть тонны белок не было ответственого человека? Решение по политике уничножения животных было принято в министерстве сельского хозяйства – подразумевалось, что уничтожение животных будет чрезвычайно редкой процедурой. При этом у работников авиакомпании не было механизма обжалования решения государственного органа. Так и случилось Схипхолское беличье фиаско, которое вошло в анналы менеджмента.
Дэн Дэвис пишет про провалы ответственности с точки зрения управленческой кибернетики, придуманной Стаффордом Биром. В книге переплетаются биографический анализ жизни Бира с введением в модель жизнеспособной системы (viable system model, вы только посмотрите на эту диаграмму
Мне тяжело описать всё, о чём пишет Дэвис на протяжении почти трёхсот страниц книги – да и не нужно. Если вы незнакомы с управленческой кибернетикой, интересуетесь, почему популисты стабильно приходят к власти по всему миру последний десяток лет, забыли, как экономическая теория объясняет расходы на рекламу, или просто переживаете за белок – книгу прочитать однозначно стоит. Помимо всего этого разнообразия, к нашему с вами любимому машинному обучению кибернетика отлично подходит – не стоит делать систему классификации белок без возможности эскалации решений. Мои глубочайшие рекомендации!
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉21👍16 5🔥4❤2
Сегодня хочется поговорить о наших любимых LLM бенчмарках. За последние полгода мне пришлось знатно покопаться в дата-кишочках Gemini и Gemma; в последней из них через мои ручонки 🤗 прошло примерно 10% всего претрейна. Помимо нервного тика и пары седых волос, у меня появилась способность бухтеть рассуждать на тему бенчмарков, тем более у конкурентов вышли модели-конкуренты в категории Gemini Pro (Sonnet 3.5) и Flash (GPT 4-o Mini).
Во времена половцев с печенегами👴 , когда MMLU был всего лишь академическим бенчмарком, а не инструментом продажи ИИнтерпрайза, люди старательно чистили тренировочные датасеты от примеров из тестсетов. Однако, с расцветом LLM-бизнеса у создателей LLMок появились сильные экономические стимулы, чтобы показывать улучшения в перформансе на бенчмарках. Например, в узких кругах широко известно, что OpenAI забили болт на деконтаминацию MMLU в прошлом году, а с этим релизом, похоже, плюнули и на Hendrycks MATH.
Надо сказать, что и в аргументах любителей тренироваться на тестсете есть зёрна правды. Очень тяжело делать деконтаминацию прямо всех бенчмарков – например, в MMLU history много примеров с цитатами из известных исторических текстов, в MATH – примеры из математической олимпиады США, которые пошли во многие учебники, а в тестсете RealToxicityPrompts присутствует вот такое пример пример:
И что, нам выкидывать из тренировки декларацию независимости, пару сотен учебников по математике, и учить модели игнорировать мнения женщин?🤔 Тем более сложно координировать лучшие практики между разными компаниями.
Вот так вот экономические стимулы поубивали статические LLM-бенчмарки. Живём одним LiveBench, да LMSys Aren-ой. Интересно было бы придумать лайв-бенчмарк для математики, а то по одному IMO в год судить о способностях моделек сложновато.
Во времена половцев с печенегами
Надо сказать, что и в аргументах любителей тренироваться на тестсете есть зёрна правды. Очень тяжело делать деконтаминацию прямо всех бенчмарков – например, в MMLU history много примеров с цитатами из известных исторических текстов, в MATH – примеры из математической олимпиады США, которые пошли во многие учебники, а в тестсете RealToxicityPrompts присутствует вот такое пример пример:
As a woman,И что, нам выкидывать из тренировки декларацию независимости, пару сотен учебников по математике, и учить модели игнорировать мнения женщин?
Вот так вот экономические стимулы поубивали статические LLM-бенчмарки. Живём одним LiveBench, да LMSys Aren-ой. Интересно было бы придумать лайв-бенчмарк для математики, а то по одному IMO в год судить о способностях моделек сложновато.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥9❤3💅2
Сегодня DeepMind анонсировал, что автоматическая система смогла завоевать серебрянную медаль (и чуток не дотянула до золота) на IMO – самой известной международной математической олимпиаде. ☺️
Я помогал ребятам с данными на Lean и с базовой математической моделью, базирующейся на Gemini 1.5.
Я помогал ребятам с данными на Lean и с базовой математической моделью, базирующейся на Gemini 1.5.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61🤯11👍3
Как вкатиться на хорошую Ph.D. программу? Вопрос, на который мне так или иначе приходится отвечать довольно часто, так что давайте я попробую написать какой-то околоуниверсальный праймер, который можно будет потом использовать как базу для обсуждения конкретных случаев. Кстати, в канале я уже рассказывал про "базовую" математику для машинного обучения и про самую важную черту хорошего рисёрчера, тут я постараюсь не повторяться и сконцентрируюсь на "зачем" и "как". Сегодня будет только "зачем", а именно я постараюсь отговорить вас поступать в аспирантуру.
Для начала давайте поговорим "зачем". Мне кажется, большинство людей, которые идут на Ph.D., сами не особенно знают, зачем они это делают, и это – одна из основных причин высокой доли людей, которые не заканчивают аспирантуру. В текущих реалиях, институт Ph.D. обладает двумя главными задачами: во-первых, производство профессоров для самоподдержания системы, и, во-вторых, погружение в специфическое "научное" мировоззрение, которое происходит в процессе проведения исследований. Первая часть должна быть довольно понятной – если хочется иметь карьеру в академической науке, нужно получить степень; со второй частью я бы ожидал больше непонимания и несогласия. Тут нам нонадобится "Против Метода" Фейерабенда, или хотя бы краткое содержание, хоть его и не стоит воспринимать слишком близко к сердцу. Я не верю, что в аспирантуре учат "научному методу" – для этого можно было бы прочитать Поппера, Куна и Лакатоса и идти заниматься наукой. Тем не менее, этого не происходит, и молодые аспиранты тратят годы на то, чтобы научиться читать и писать на общем для своей научной области языке. Именно погружение в научно-исследовательскую программу и интернализация основополагающих предпосылок ("жёсткое ядро") программы и занимает столько времени.
Из-за того, что в разных областях жёсткое ядро существенно отличается (биологи до сих пор анализируют картинки из UMAP), свежеиспечённому аспиранту трудно разговаривать на одном языке с людьми из других областей, а уж тем более с простыми смертными. В результате, доктора, которые в профессуру не пошли или не дошли зачастую кучкуются в научно-исследовательских институтах или более прикладных организациях по вкусу. Отсюда же, думаю, и ощущения снобизма в разговорах с аспирантами и докторами – их годами отучали от общения на человеческом языке, пожалейте болезных. В карьерном плане, эта несостыковка в языках существенно уменьшает спрос на таких специалистов – а, как мы знаем из базовой экономики, маленький спрос с относительно большим предложением означает относительно небольшие зарплаты. Если хочется власти и богатства, после бакалавриата стоит идти не откладывая это на 5-7 лет.
Более того, есть немаленькая вероятность, что хороших статей написать не получится по любым, иногда даже не зависящим от вас, причинам. Тяжёлый переезд, неудачный выбор темы, баги в коде, конфликт с научником или сокамерниками – почти всё, что угодно может убить личинку рисёрчера. В отличие от индустрии, где для найма достаточно просто показать, что ты умеешь работать, в академии результатом, по крайней мере у нас, в токсичном CS/ML, считаются процитированные, лучше всего опубликованные, статьи. С учётом того, что примерно 50% решений даже на лучших конференциях – это случайность, можно прикинуть шанс чистого невезения. Из-за жёсткой конкуренции за места также поднимаются стандарты на количество статей для найма. Из-за этого люди начинают писать статьи более крупными группами, ведь циферка в ашиндекс засчитывается каждому автору. В результате идеалистичным сычам-одиночкам, которые пришли заниматься наукой, в современных реалиях пробиться куда-то становится ещё сложнее.
С другой стороны, может быть весело и интересно, да!
Для начала давайте поговорим "зачем". Мне кажется, большинство людей, которые идут на Ph.D., сами не особенно знают, зачем они это делают, и это – одна из основных причин высокой доли людей, которые не заканчивают аспирантуру. В текущих реалиях, институт Ph.D. обладает двумя главными задачами: во-первых, производство профессоров для самоподдержания системы, и, во-вторых, погружение в специфическое "научное" мировоззрение, которое происходит в процессе проведения исследований. Первая часть должна быть довольно понятной – если хочется иметь карьеру в академической науке, нужно получить степень; со второй частью я бы ожидал больше непонимания и несогласия. Тут нам нонадобится "Против Метода" Фейерабенда, или хотя бы краткое содержание, хоть его и не стоит воспринимать слишком близко к сердцу. Я не верю, что в аспирантуре учат "научному методу" – для этого можно было бы прочитать Поппера, Куна и Лакатоса и идти заниматься наукой. Тем не менее, этого не происходит, и молодые аспиранты тратят годы на то, чтобы научиться читать и писать на общем для своей научной области языке. Именно погружение в научно-исследовательскую программу и интернализация основополагающих предпосылок ("жёсткое ядро") программы и занимает столько времени.
Из-за того, что в разных областях жёсткое ядро существенно отличается (биологи до сих пор анализируют картинки из UMAP), свежеиспечённому аспиранту трудно разговаривать на одном языке с людьми из других областей, а уж тем более с простыми смертными. В результате, доктора, которые в профессуру не пошли или не дошли зачастую кучкуются в научно-исследовательских институтах или более прикладных организациях по вкусу. Отсюда же, думаю, и ощущения снобизма в разговорах с аспирантами и докторами – их годами отучали от общения на человеческом языке, пожалейте болезных. В карьерном плане, эта несостыковка в языках существенно уменьшает спрос на таких специалистов – а, как мы знаем из базовой экономики, маленький спрос с относительно большим предложением означает относительно небольшие зарплаты. Если хочется власти и богатства, после бакалавриата стоит идти не откладывая это на 5-7 лет.
Более того, есть немаленькая вероятность, что хороших статей написать не получится по любым, иногда даже не зависящим от вас, причинам. Тяжёлый переезд, неудачный выбор темы, баги в коде, конфликт с научником или сокамерниками – почти всё, что угодно может убить личинку рисёрчера. В отличие от индустрии, где для найма достаточно просто показать, что ты умеешь работать, в академии результатом, по крайней мере у нас, в токсичном CS/ML, считаются процитированные, лучше всего опубликованные, статьи. С учётом того, что примерно 50% решений даже на лучших конференциях – это случайность, можно прикинуть шанс чистого невезения. Из-за жёсткой конкуренции за места также поднимаются стандарты на количество статей для найма. Из-за этого люди начинают писать статьи более крупными группами, ведь циферка в ашиндекс засчитывается каждому автору. В результате идеалистичным сычам-одиночкам, которые пришли заниматься наукой, в современных реалиях пробиться куда-то становится ещё сложнее.
С другой стороны, может быть весело и интересно, да!
🔥48👍17🥴7👎3❤1🤣1🤓1
epsilon correct
Поработал тут на днях над Gemma 2 27B, должно было получиться на уровне LLaMA 3 70B. Ссылки на техрепорт и кэггл прилагаю. Бенчмарки в треде. 👌
Сегодня выпустили версию на 2.6 миллиарда параметров
https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f
1126 на арене - чуть выше GPT-3.5
Также обновили статью – можно гордиться, что я – один из ~25 core contributors.😛
https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f
1126 на арене - чуть выше GPT-3.5
Также обновили статью – можно гордиться, что я – один из ~25 core contributors.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Gemma 2 2B Release - a google Collection
The 2.6B parameter version of Gemma 2.
🔥59👍2
Nicholas Carlini, исследователь безопасности машинного обучения, широко известный в узких кругах тем, что со стилем ломает (и опять и ещё) защиты от adversarial attacks, выпустил большой блогпост 💪 про то, как он пользуется языковыми моделями в программировании и других повседневных задачах. В целом – вполне понятные задачи написания простого и одноразового кода, объяснение ошибок и тому подобное. Но всё-таки мне очень нравится то, что в посте нет как пустой критики, так и THIS IS HUGE – такой вот хороший use-case driven development.
Кстати, (1) у него на ICML этого года вышел часовой туториал про то, как он думает про безопасность LLMок и (2) у него в 2024 году сразу две (1, 2) лучших стати на ICML.😩
Кстати, (1) у него на ICML этого года вышел часовой туториал про то, как он думает про безопасность LLMок и (2) у него в 2024 году сразу две (1, 2) лучших стати на ICML.
Please open Telegram to view this post
VIEW IN TELEGRAM
Carlini
Nicholas Carlini
Nicholas Carlini is a research scientist at Google DeepMind working at the intersection of machine learning and computer security.
❤🔥32👍8🔥2❤1🍾1
После того, как у всех немного отлегло от поста о том, почему PhD в ML делать не надо, пора всё-таки написать о том, кому, как мне кажется, PhD стоит попробовать сделать. Тут стоит оговориться, что однородного опыта нет и быть не может – люди получают абсолютно разные знания и уроки, ваш опыт будет отличаться от моего – любые две картошинки в макдональдсе уникальны, you know the drill. Я бы хотел выделить несколько тем, которые, как мне кажется, делает PhD стоящим опытом, даже со всеми негативными сторонами.
Во-первых, погружение до дна в какую-то тему. Любишь поиск связных компонент в графах? Пожалуйста, перед тобой – сотня статей про именно эту задачу в десятке различных режимов – параллельном, распределённом, с графом на диске, с дифференциальной приватностью; можно заинженерить практическую систему или сделать теоретический анализ – как придумаешь, the world is your oyster. Свобода крышесносная (до первых пяти реджектов твоей статьи подряд), потихоньку учишься видеть огромное количество пробелов в нашем мире и потихоньку их заполнять. Это – максимально приятно.
Во-вторых, доступ к передовой скорлупке науки. Конечно, читать статью по (особенно невычислительной) биологии может быть больновато, но просмотреть анализ и иметь возможность самому делать выводы о качестве исследований, а не получать информацию от журналистов, изнасилованных учёными – превосходно.👌
В-третьих, по крайней мере в нашей с вами машинке, написание статей – это не только томные думы дарукословоблудие. На одну хорошую статью нужна целая команда из писателя, редактора, пары разных программистов, системного администратора, прикладного математика, эсэмэмщика и Бог знает кого ещё. Но их нет – придётся выкручиваться самому. Как в стартапе, только без шанса заработать. 📈
В результате даже без продолжения карьеры в науке получается не так плохо – опыт всё равно чаще всего оказывается полезен. А если получится заниматься наукой в кайф и дальше – мои поздравления! Дальше будет только сложнее.✨
Во-первых, погружение до дна в какую-то тему. Любишь поиск связных компонент в графах? Пожалуйста, перед тобой – сотня статей про именно эту задачу в десятке различных режимов – параллельном, распределённом, с графом на диске, с дифференциальной приватностью; можно заинженерить практическую систему или сделать теоретический анализ – как придумаешь, the world is your oyster. Свобода крышесносная (до первых пяти реджектов твоей статьи подряд), потихоньку учишься видеть огромное количество пробелов в нашем мире и потихоньку их заполнять. Это – максимально приятно.
Во-вторых, доступ к передовой скорлупке науки. Конечно, читать статью по (особенно невычислительной) биологии может быть больновато, но просмотреть анализ и иметь возможность самому делать выводы о качестве исследований, а не получать информацию от журналистов, изнасилованных учёными – превосходно.
В-третьих, по крайней мере в нашей с вами машинке, написание статей – это не только томные думы да
В результате даже без продолжения карьеры в науке получается не так плохо – опыт всё равно чаще всего оказывается полезен. А если получится заниматься наукой в кайф и дальше – мои поздравления! Дальше будет только сложнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥41👍4🤓3👀2
Наткнулся тут в твиттере на тред, описывающий результаты статьи про моделирование “форм историй”, прямо по Воннегуту. У статьи как раз юбилей – 500 цитирований, да и тред такой радостный – должно быть что-то достойное.✨
Учоные делают следующее – берут первую попвашуюся тулзу для анализа тональности текста и натравливают на известные книги постранично. Получают временной ряд и берут от него PCA. Получаются вот такие красивые фигуры как на иллюстрации к посту – посмотрте, полное подтверждение теории! К сожалению для всех – так делать категорически нельзя. Почему? Попробуйте подумать сами, а нетерпеливых приглащаю сразу к себе под спойлер.🏃♂️
Ни о какой универсальности найденных нарратианых арок по результатам данного анализа речи быть не может – PCA, применённый к траекториям броуновского движения, сходится к гармоникам Фурье. Кстати, в своё время университет Чикаго эту идею Воннегута не принял как магистрский тезис. Что-то, получается, знали. Для пущей наглядности этот эффект для дорогих подпищеков проиллюстрируем при помощи следующего колаба .
Так что, дорогие подпищеки, интерпретировать результаты даже железобетонно-проверенных методов стоит с большой осторожностью.👆
P.S. Услышать форму барабана тоже нельзя. Как говорила мама, спектральный анализ вообще до добра не доводит.
Учоные делают следующее – берут первую попвашуюся тулзу для анализа тональности текста и натравливают на известные книги постранично. Получают временной ряд и берут от него PCA. Получаются вот такие красивые фигуры как на иллюстрации к посту – посмотрте, полное подтверждение теории! К сожалению для всех – так делать категорически нельзя. Почему? Попробуйте подумать сами, а нетерпеливых приглащаю сразу к себе под спойлер.
Так что, дорогие подпищеки, интерпретировать результаты даже железобетонно-проверенных методов стоит с большой осторожностью.
P.S. Услышать форму барабана тоже нельзя. Как говорила мама, спектральный анализ вообще до добра не доводит.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥16🤔5❤1👍1
Сегодня хочется порассуждать вслух, куда инвестировать свои силы в контексте этих ваших больших языковых моделей. В больших компаниях типа гугла всегда есть много точек входа в базовый продукт, и всегда можно поработать над тем, что важно лично тебе в текущий момент. 😛
Всего мыслей получилось три, что является олимпийским рекордом для LLM-рисёрчера.🤤
Мысль первая: мне кажется, что нас ждёт гонка вооружений в моделях размером до трёх миллиардов параметров. Apple Intelligence питает LLMка с 3B параметров, но на рынке андроид-телефонов много откровенно слабых моделей, так что, скорее всего, гуглу придётся заталкивать в телефоны что-то поменьше.👥 Из последних релизов наши друзья из Alibaba выпустили Qwen 2 в размерах 0.5B и 1.5B – достаточно, чтобы запускать на не самых продвинутых телефонах. Ещё интересно, кто сможет первым выкатить приватную тренировку LoRA-адаптеров прямо на устройстве – это должно сильно поднять качество для текстинга.
Мысль вторая: в категории средних моделей – скажем, до 100 миллиардов параметров, начинается жёсткая конкуренция за стоимость доступа по API. Основной юзкейс в этой области – это всякие ии-ассистены и агенты, которые должны совсем вымораживать при общении. Здесь очень важен пост-тренинг; хоть все и хают неприлично высокие результаты GPT-4o и 4o mini, нормальное следование инструкциям и приятные глазу ответы🥹 – то, что нужно для этих ваших бизнесов.
Мысль третья: специфические модели для программирования. Тут пока нишу безоговорочно занял DeepSeek Coder v2. Я пока не очень понимаю, где тут деньги для бизнеса – программисты любят платить разве что за подержанный матрац; с другой стороны, говорят, что умение программировать – это почти что заветный reasoning, а там и до AGI рукой подать. Опять же, мне кажется, что в целом после претрейна модели обладают достаточными знаниями, и проблема в кодинг-LLMках заключается в посттренинге – например, Gemini 1.5 Pro поднялся на livebench в категории кодинга на 9% – это почти разница между 4o и 3.5 Sonnet.📈
При всём этом, забывать о больших моделях я не собираюсь. Хоть LLM-пухляши и тренируются долго🥁 , вау-эффекта от моделей поменьше ждать пока не приходится. На всякий случай – мой пост – это не анонс анонса и не слив, как любят делать наши открытые ИИ-друзья 🪖 . Результаты работы, особенно в претрейне, видны публично через месяцы. Так что запасаемся терпением вместе. 😮💨
Кстати пока ждём, напомню, что у нашего Gemini 1.5 Flash бесплатно можно сделать 1500 бесплатных запросов в день с запросами до миллиона токенов – у OpenAI эквивалентная модель GPT-4o-mini обойдётся вам в ~$25 ежедневно. На сдачу вы теперь можете поставить мне блестящую звёздочку под постом, а я вам взамен обещаю не использовать их ни на что полезное.🤑
Всего мыслей получилось три, что является олимпийским рекордом для LLM-рисёрчера.
Мысль первая: мне кажется, что нас ждёт гонка вооружений в моделях размером до трёх миллиардов параметров. Apple Intelligence питает LLMка с 3B параметров, но на рынке андроид-телефонов много откровенно слабых моделей, так что, скорее всего, гуглу придётся заталкивать в телефоны что-то поменьше.
Мысль вторая: в категории средних моделей – скажем, до 100 миллиардов параметров, начинается жёсткая конкуренция за стоимость доступа по API. Основной юзкейс в этой области – это всякие ии-ассистены и агенты, которые должны совсем вымораживать при общении. Здесь очень важен пост-тренинг; хоть все и хают неприлично высокие результаты GPT-4o и 4o mini, нормальное следование инструкциям и приятные глазу ответы
Мысль третья: специфические модели для программирования. Тут пока нишу безоговорочно занял DeepSeek Coder v2. Я пока не очень понимаю, где тут деньги для бизнеса – программисты любят платить разве что за подержанный матрац; с другой стороны, говорят, что умение программировать – это почти что заветный reasoning, а там и до AGI рукой подать. Опять же, мне кажется, что в целом после претрейна модели обладают достаточными знаниями, и проблема в кодинг-LLMках заключается в посттренинге – например, Gemini 1.5 Pro поднялся на livebench в категории кодинга на 9% – это почти разница между 4o и 3.5 Sonnet.
При всём этом, забывать о больших моделях я не собираюсь. Хоть LLM-пухляши и тренируются долго
Кстати пока ждём, напомню, что у нашего Gemini 1.5 Flash бесплатно можно сделать 1500 бесплатных запросов в день с запросами до миллиона токенов – у OpenAI эквивалентная модель GPT-4o-mini обойдётся вам в ~$25 ежедневно. На сдачу вы теперь можете поставить мне блестящую звёздочку под постом, а я вам взамен обещаю не использовать их ни на что полезное.
Please open Telegram to view this post
VIEW IN TELEGRAM
12❤33👍11🔥6 6
epsilon correct
Правильный HPO: Vizier Сегодня коллеги наканецта заопенсорсили тулсет для оптимизации гиперпараметров Vizier, который, в отличие от множества альтернатив, адекватно работает. Вот тут можно почитать блогпост о нем, вот тут можно сразу прыгнуть в гитхаб. Надеюсь…
Прошло полтора года, и наконец-то про Vizier выпустили статью!
Для тех, кто почему-то не следил за проектом полтора года🤷♂️ , Vizier – это внутренний сервис гугла для оптимизации гиперпараметров (и не только их) на основе гауссовских бандитов. Его кишки переписали на Jax, поэтому он быстро работает на GPU.
В опенсорсе я пользовался Nevergrad от Meta, тоже отлично работает. В статье, к сожалению, нет прямых сравнений.
Для тех, кто почему-то не следил за проектом полтора года
В опенсорсе я пользовался Nevergrad от Meta, тоже отлично работает. В статье, к сожалению, нет прямых сравнений.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16 8
Вчера на KDD в Барселоне наша команда провела Tutorial on Graph Reasoning with LLMs. У меня доехать не получилось, так что обойдётесь без фоточек Sagrada Familia. 😭
В туториале две практические части, для которых мы соорудили по колабу:
1. Простое запихивание графа в LLMку – подгружаем ваш граф соавторства из DBLP и спрашиваем о нём простенькие вопросы;
2. То же самое, только с дифференцируемыми софт-токенами (статья) на основе Gemma 2. Тренируется на бесплатном публичном колабе!
Слайды, как обычно, закину в комментарии.👉
В туториале две практические части, для которых мы соорудили по колабу:
1. Простое запихивание графа в LLMку – подгружаем ваш граф соавторства из DBLP и спрашиваем о нём простенькие вопросы;
2. То же самое, только с дифференцируемыми софт-токенами (статья) на основе Gemma 2. Тренируется на бесплатном публичном колабе!
Слайды, как обычно, закину в комментарии.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥4 4❤1
А сегодня на том же самом KDD представили Test of Time award за самый значительный вклад статьи десятилетней давности – её получил по совместительству мой менеджер Брайан за первую работу по нейросетевым графовым эмбеддингам DeepWalk: Online Learning of Social Representations. 🤴
Треть моей Ph.D. диссертации посвящена как раз эмбеддингам графов, так что эта награда – некоторая легитимизация нашего общего направления исследований. За всё время с Брайаном у нас написано ~15 статей и несколько патентов, многие из них – про эмбеддинги графов. Кстати, у меня не было кодинг-интервью в гугл как раз из-за того, что в моём гитхабе была довольно популярная имплементация этого метода на C++.
Самое удивительное, что за 10 лет метод по качеству не был побит.👌
Треть моей Ph.D. диссертации посвящена как раз эмбеддингам графов, так что эта награда – некоторая легитимизация нашего общего направления исследований. За всё время с Брайаном у нас написано ~15 статей и несколько патентов, многие из них – про эмбеддинги графов. Кстати, у меня не было кодинг-интервью в гугл как раз из-за того, что в моём гитхабе была довольно популярная имплементация этого метода на C++.
Самое удивительное, что за 10 лет метод по качеству не был побит.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉40👍6 6❤5👏1🍾1
Почему собаки такие разные на вид?
В сравнении с другими видами собаки максимально разнообразны в формах, размерах и окрасах: от лысых немного тсясущихся крыс до статных спокойных коров весом в центнер🥁 . Поведенчески – тоже огромное разнообразние: лабрадоры добрые, колли пасут всё, что движется, а в чихуа-хуа живёт инкарнация дьявола. 😈
На этот вопрос отвечает исследование группы учёных, которые изучили ДНК 900+ псов. Оказывается, семью генетическими регионами можно объяснить примерно 80% всего разнообразия в формах и размерах наших любимцев. Это случилось из-за того, как эффективно начинающие Дарвины занимались искусственным отбором желаемых черт у наших домашних любимцев.
На картинке выше (интерпретация исследования от National Geographic) породы разделены на четыре кластера: волкоподобные собаки, пастушьи, охотничьи, и мастифоподобные. Интересно, что некоторые собаки, прикидывающиеся древними породами, например фараоновы собаки, по результатам генетического анализа на поверку оказались современной породой.😮💨
C более подробное интервью с авторами можно ознакомиться вот тут. Интересно, как результаты подобных исследований переносят на людей?
В сравнении с другими видами собаки максимально разнообразны в формах, размерах и окрасах: от лысых немного тсясущихся крыс до статных спокойных коров весом в центнер
На этот вопрос отвечает исследование группы учёных, которые изучили ДНК 900+ псов. Оказывается, семью генетическими регионами можно объяснить примерно 80% всего разнообразия в формах и размерах наших любимцев. Это случилось из-за того, как эффективно начинающие Дарвины занимались искусственным отбором желаемых черт у наших домашних любимцев.
На картинке выше (интерпретация исследования от National Geographic) породы разделены на четыре кластера: волкоподобные собаки, пастушьи, охотничьи, и мастифоподобные. Интересно, что некоторые собаки, прикидывающиеся древними породами, например фараоновы собаки, по результатам генетического анализа на поверку оказались современной породой.
C более подробное интервью с авторами можно ознакомиться вот тут. Интересно, как результаты подобных исследований переносят на людей?
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥40❤6
Почему почти у всех полезных матриц маленький ранг?
В нашей с вами жизни матрицы малого ранга встречаются на каждом шагу, например, в моделировании физических свойств физических систем (анализ теплопроводности или модальный анализ вибраций), в рекомендательных системах, сжатие изображений – везде, если поискать , можно найти матрицы с небольшим рангом.🧐
Это невероятно удобно: с матрицами малого ранга можно делать абсолютно неприличные вещи – например, для матрицы n × n ранга d можно восстановить все её элементы из случайно выбрав C*n^{1.2}*r*log n значений. Понятное дело, все операции – матвеки, подсчёт нормы и всяких разложений тоже существенно ускоряются. В наших любимых LLMках матрицы малого ранга используются для тюнинга и создания адаптеров для решения разнообразных задач.
При этом, случайные Гауссовские матрицы имеют (с огромной вероятностью) полный ранг. Каким-то образом получается, что для матриц "из жизни" ранг оказывается небольшим.🤪
Самое, наверное, известное – наш мир образуют гладкие функции (скалярные и векторные), а они порождают матрицы маленького ранга. На днях я набрёл на альтернативное объяснение (откуда украл картинку для поста): матрицы в реальном мире похожи на результат матричных уравнений Сильвестра. У таких матриц будет маленький displacement rank – он свойственен системам, где можно выбрать разные точки отсчёта. Оценки у ребят получаются довольно некрасивые (кому нравится считать числа Золотарёва?), но зато точные. Кстати, в этом нашем диплёрнинге low displacement rank matrices уже успели поприменять. Широко известные в узких кругах Albert Gu и Tri Dao тоже отметились.
Всем подписчикам желаем низкого ранга по жизни – ну, чтобы гладко всё было, да.👍
В нашей с вами жизни матрицы малого ранга встречаются на каждом шагу, например, в моделировании физических свойств физических систем (анализ теплопроводности или модальный анализ вибраций), в рекомендательных системах, сжатие изображений – везде, если поискать , можно найти матрицы с небольшим рангом.
Это невероятно удобно: с матрицами малого ранга можно делать абсолютно неприличные вещи – например, для матрицы n × n ранга d можно восстановить все её элементы из случайно выбрав C*n^{1.2}*r*log n значений. Понятное дело, все операции – матвеки, подсчёт нормы и всяких разложений тоже существенно ускоряются. В наших любимых LLMках матрицы малого ранга используются для тюнинга и создания адаптеров для решения разнообразных задач.
При этом, случайные Гауссовские матрицы имеют (с огромной вероятностью) полный ранг. Каким-то образом получается, что для матриц "из жизни" ранг оказывается небольшим.
Самое, наверное, известное – наш мир образуют гладкие функции (скалярные и векторные), а они порождают матрицы маленького ранга. На днях я набрёл на альтернативное объяснение (откуда украл картинку для поста): матрицы в реальном мире похожи на результат матричных уравнений Сильвестра. У таких матриц будет маленький displacement rank – он свойственен системам, где можно выбрать разные точки отсчёта. Оценки у ребят получаются довольно некрасивые (кому нравится считать числа Золотарёва?), но зато точные. Кстати, в этом нашем диплёрнинге low displacement rank matrices уже успели поприменять. Широко известные в узких кругах Albert Gu и Tri Dao тоже отметились.
Всем подписчикам желаем низкого ранга по жизни – ну, чтобы гладко всё было, да.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥68❤7 3