NEW BOT Телеграм, страница

Knowledge Accumulator

В чём заключается эффективный альтруизм

Речь не пойдёт о движении с таким названием, сегодня я хочу поговорить просто про помощь другим.

Итак, можно представить, что "счастье", "богатство", "здоровье" - то, что мы считаем чем-то хорошим, зависит от множества факторов. В принципе, для них можно выписать своего рода дифференциальное уравнение. Рассмотрим простейшую модель:

Производная среднего здоровья = a_1 x Количество врачей - c_1, то есть каждый новый врач улучшает направление движения среднего здоровья. В такой элементарной картине мира, если вы хотите помогать людям быть здоровыми, вы становитесь врачом.

На самом деле всё куда сложнее и выписать формулу нереально. Но можно понять, какие факторы присутствуют и в каком они примерно отношении находятся друг с другом. В случае со здоровьем другими факторами будут качество образа жизни, медицинские исследования, дизайн медицинской системы и т.д.

Какие-то факторы влияют наиболее "прямо" - как качество образа жизни, а какие-то на производную второго порядка - как исследования, которые увеличивают вклад, который вносит каждый следующий врач. Такая картина уже не такая примитивная, но есть куда копать глубже.

Скорость медицинских исследований, в свою очередь, зависит от чего-то ещё - богатства общества, долгосрочной стабильности, уровня экспертизы людей. Это факторы третьего порядка. Они зависят от политической ситуации и экономической ситуации, которые будут уже четвёртым порядком.

Оказывается, если начать копать во все факторы процветания, вы заметите, что на производную самого высокого порядка почти всегда будет влиять политика. Конечно, занимаясь ей, у вас не получится потешить своё самолюбие, видя прямую пользу от своих действий. Однако, двигая её в положительную сторону, вы опосредованно двигаете туда же почти все факторы. Правда, если вы социалист, то вы сдвигаете эти факторы в отрицательную сторону, так что неплохо было бы разобраться в жизни, прежде чем что-то делать.

Представьте, что вы выбрали точку, в которую хотите прикладывать силу - будь то лечение, исследование или политика. Самый наивный способ - это просто начать ей заниматься - быть врачом, исследователем или активистом. На самом же деле сила, которую вы можете приложить, зависит от ресурсов, которые у вас есть. Открыть больницу лучше, чем быть врачом. Открыть лабораторию лучше, чем быть учёным. Создать политическое движение лучше, чем быть активистом. Влияние на мировую политику у Илона Маска сопоставимо с огромной политической партией.

Таким образом, ответ на то, как приносить наибольшую пользу обществу, контринтуитивен. Во-первых, надо заниматься политикой - "грязным делом", а во-вторых, нужно стать богатым, чтобы делать это в большом масштабе. А когда вы заработаете себе несколько миллионов долларов в качестве фундамента, глядишь, и социалистические взгляды пропадут, если были до этого.

@knowledge_accumulator

2🤡16👍12😁4💯4🤣2❤1🙈1

2.59K viewsedited 09:53

Knowledge Accumulator

LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench [2024] - так могут они планировать или нет?

Часть LLM-критиков используют формулировку "Can't Plan", "Don't plan", но мне они не нравятся.

Многие из них подразумевают, что в структуру LLM должно быть явным образом зашита процедура "планирования", как в AlphaZero/MuZero - так называемая System 2. Подразумевается, что без этого модель не способна планировать, но я уже говорил, что это ложный фреймворк. Модель всегда планирует, причём ровно в той степени, которая нужна для минимизации лосс-функции при обучении.

Правильная постановка вопроса - может ли LLM решать новые задачи, требующие планирования? Именно это и пытаются выяснить авторы данной статьи.

Есть задачки Blocksworld - даны несколько блоков, их можно перемещать / ставить друг на друга, цель - построить из них заданную структуру. Они за 0.3 секунды решаются простым перебором, так что сложность задач низкая. Когда задача описана на естественном языке, в промпте указаны все правила взаимодействия с этими блоками.

Версия Mystery Blocksworld - все действия заменены на "кодовые слова", не имеющие особого смысла. Randomized Mystery Blocksworld - версия, в которой все сущности заменены на случайные наборы символов. Итак, поехали смотреть результаты.

Обычные SOTA-LLM решают половину Blocksworld, но плавятся в ноль при переходе к Mystery Blocksworld. При этом LLM справляются с переводом задачи из Mystery - деобфускацией, но даже с предоставлением словаря для перевода в промпте к задаче модель не справляется. Вывод напрашивается банальный - оригинальные задачи были в претрейне и модель их просто запомнила.

Модель O1 решает 100% задач оригинального Blocksworld, что наталкивает на вывод, что Chain of Thought помогает в том числе вспоминанию тренировочных данных. Самый важный прорыв происходит на обфусцированных версиях - модель решает половину `Mystery
Blocksworld` и треть Randomized Mystery Blocksworld. Кого-то это наталкивает на оптимизм, но меня не особо, и вот почему.

Мне бы не пришло в голову проверять способность к решению задач, давая уже известные задачи, в которой слова заменены на случайные. Легко поверить, что LLM умеет генерализовывать данные с точностью до замены слов на другие, но это не говорит о том, что модель умеет решать такую задачу с нуля.

Качественной проверкой было бы придумывание хотя бы новых инстансов той же самой задачи, хотя в идеале было бы давать задачи похожей сложности с другой внутренней логикой. У кого есть доступ к o1 - позадавайте тупые версии парадокса Монти Холла, будет вам тест на логику 😁

Авторы всё же делают одну интересную проверку - они дали модели 100 модифицированных нерешаемых Blocksworld, из которых O1 признала таковыми 27, а для 54 сгенерировала некорректный план. С Randomized Mystery Blocksworld такой же тест выдал 79/100 некорректных планов.

На способности к планированию O1 влияют используемые в задаче слова. Итоговый вывод как нельзя красив - модель и планирует, и не планирует одновременно.

@knowledge_accumulator

3👍15❤3🔥2

2.41K views10:19

Knowledge Accumulator

Оставьте две недели себе на чай

Вам очень понравился мой прошлый пост про "Задачу трёх тел", так что в этот раз продолжаем рубрику, но переключаемся в мир кино. Если вы уже давно закончили школу, то могли застать премьеру фильма "Время" 2011 года.

Сеттинг этого мира таков - люди научились полностью останавливать старение тела после 25 лет. Зато вместо этого у них на руке есть таймер - время, через которое они мгновенно умрут. Время на этом таймере используется как деньги.

Из ингредиентов успеха также присутствуют - деление территории на "временные зоны" - там, где все на грани выживания, и где люди живут вечно. Богачи постоянно повышают цены и уменьшают зарплаты якобы во имя естественного отбора, а наши главные герои "противостоят системе", грабя банки и раздавая деньги бедным.

В принципе, вышла полноценная коммунистическая антиутопия - плановая экономика, отсутствие свободы не быть чипированным, искусственно созданный дефицит ресурсов, ну и полюбившаяся красным несвобода перемещения.

Проблема в том, что главные герои и возможно многие зрители фильма делают из всей картины вывод, что проблема в бессмертии. Давайте подумаем про это получше.

Искусственный дефицит ресурсов мотивируется тем, что иначе на всех не будет хватать. Я уже писал о мальтузианской ловушке и её применимости в прошлом, современности и будущем. Фундаментальные ресурсы - энергия, пространство, материалы, находятся и будут ещё очень долго находиться в изобилии - при наличии рыночной экономики их использование будет догонять потребности для выживания. Когда в России будет жить ~10 миллиардов человек, то она лишь догонит плотность населения Южной Кореи.

Если всё-таки предположить, что мы упрёмся в какой-то ресурс, нам всё равно не нужна никакая искусственная система ограничений, потому что цены на товары будут расти при приближении к исчерпанию. Вряд ли кто-то будет умирать от голода - скорее всего, наиболее бедные будут просто отказываться платить за омолаживающую терапию, и, таким образом, окажутся в сегодняшнем положении. Средний класс и богатые получат возможность жить очень долго, и, если экономика близка к свободному рынку, то это будут в среднем более продуктивные и полезные для общества люди.

"He would rather have the poor poorer provided the rich were less rich" - именно такой цитатой Тэтчер можно описать тех, кто считает, что это будет менее справедливо, чем сейчас. "Всем должно быть одинаково плохо" - так понимают справедливость не только более примитивные приматы, но и некоторые из наших сородичей.

Про аспекты будущего - ИИ, бессмертие и многое другое - люди пишут и снимают антиутопии и прочие ужасы, поскольку произведение о том, как у всех всё хорошо, не вызовет особого интереса. К сожалению, это уже привело к последствиям для ИИ, представление о котором базируется как раз на художественных произведениях 20-го века, когда про ИИ думали, что это человек с IQ=500, живующий в компьютере (кто-то и сейчас так думает). В результате, мы в уникальной ситуации - технологию начинают душить регулированием ещё до появления, и неясно, насколько сильно это замедлит прогресс.

Ложные страхи о бессмертии могут также и замедлить прогресс в продлении жизни. Но я не беспокоюсь об этом, поскольку уверен, что именно ИИ решит для нас эту задачу. Достаточно лишь одной организации с умным руководством, которая сможет изобрести этот самый суперинтеллект.

@knowledge_accumulator

1👍14❤7🔥4🤡4🤣4

2.93K viewsedited 13:14

Knowledge Accumulator

Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [2024] - файнтюним LLM на задачи

Обучение модели на человеческой разметке имеет потолок - уровень людей, которые эту разметку генерировали. Чтобы модель в принципе могла стать superhuman, ей нужно обучаться решению какой-то сложной задачи, в которой есть возможность посчитать награду - как это было с AlphaZero.

Конкретно LLM ещё до такого далеко, но шаги в эту сторону делают. Примером такого и является статья про Agent Q, одним из авторов которой является автор DPO.

В качестве задачек выбирают всякого рода хождение по интернету - WebShop, OpenTable. У модели есть промпт вида "закажи мне столик в ресторане на XX:XX такого-то числа" и HTML текущей страницы. Чтобы облегчить модели задачу, ей позволяют сначала придумать и добавить план действий в контекст.

Переходим, наконец, к сути обучения. Авторы используют MCTS - хождение по дереву состояний - прям как в AlphaZero. Находясь в вершине текущего состояния, сеть выбирает кандидатов на следующие действия, которые потом исследуются с учётом баланса между exploration и exploitation. Итоговую награду в листьях оценивают с помощью других LLM - оценить правильность по странице с подтверждением заказа достаточно легко для LLM.

Как метод не назови - DPO / Policy Gradient, суть одна - двигаем модель в сторону генерации тех действий, которые привели к более высокой награде в последствии. В результате у авторов получается достичь высокий процент успеха на той задаче, на которой это всё обучали.

Приведёт ли это направление к чему-то интересному? С одной стороны это логичный шаг - переходим к реальным задачам, симуляторам, учим на много задач одновременно и приходим к успеху. С другой стороны, у нас уже есть опыт Gato - модель, которую учили на большом сете задач, не очень удаётся применять на задачах извне тренировочного распределения.

При обучении in-context трансформера на много задач, чтобы добиться out of distribution обобщения, необходимо, чтобы разнообразие задач превалировало над размером модели. Модели типа Ada / Gato - это супермаленькие трансформеры по сравнению с текущими LLM. Получится ли собрать для них набор задач такого размера, чтобы модель смогла научиться в out-of-distribution? Будем следить.

@knowledge_accumulator

👍9🔥4❤1

2.94K views10:35

Knowledge Accumulator

Were RNNs All We Needed? [2024]

Я уже писал про S4, которая, если убрать 3 тонны математической мишуры, сводится к тому, что это специальная версия RNN, которую можно применять параллельно ко всей последовательности.

"Как-то слишком дохера там мишуры" - подумали авторы данной работы и задались вопросом - а что, если мы напрямую возьмём LSTM и GRU и модифицируем их таким образом, чтобы их тоже можно было применять параллельно? Давайте разберёмся, что для этого нужно.

Сначала отвлечёмся на минутку и вспомним задачку подсчёта сумм префиксов массива - [x1; x2; x3 ....] -> [x1; x1+x2; x1+x2+x3]. Такая задача решается линейно за 1 цикл проходом по массиву. А можно ли решить её быстрее, если у нас есть параллельные вычисления?

Засчёт того, что операция суммы ассоциативна (a+b) + c = a + (b+c), нам не обязательно считать всю сумму по порядку. Например, чтобы посчитать всю сумму массива, мы можем в 1 потоке просуммировать левую половину, во 2 потоке правую и в конце сложить - получили подсчёт суммы за половину от длины.

Если у нас много потоков, то все префиксные суммы можно посчитать за логарифм от длины. Алгоритм, который это делает, называется Parallel scan. Итак, можно ли подружить RNN и Parallel Scan?

К сожалению, в обычной GRU/LSTM то, как x_t входит в h_t, зависит от h_{t-1}, так что сделать это нельзя - операция неассоциативна. Авторы предлагают архитектуры minLSTM и minGRU в качестве альтернативы, в которых такой зависимости нет, и которую можно применять параллельно. Понятно, что от этого частично теряется мощность модели, но тем же самым жертвует и S4.

В статье провели какие-то первичные замеры на простых задачах, но требуется дальнейшая битва этих вариаций с S4. Надеюсь, ему придумают простую альтернативу и мы получим возможность не разгребать тонны линала в статьях.

Проблема в том, что нам вообще-то хотелось бы иметь ту самую нелинейную зависимость, которую приходится убирать ради ассоциативности. Зависимость обработки входа от скрытого состояния всё ещё остаётся в модели, но только между разными слоями внутри модели. Может быть, если такой мощности взаимодействия не хватит, нужна будет какая-то комбинированная альтернатива - более медленная, но более умная. Поглядим.

Интересно, есть ли какая-то перспектива у таких архитектур в контексте meta-learning. С одной стороны, её можно применять in-context и у неё меньше параметров, а значит, должна лучше обобщать за пределы трейна. С другой стороны, это может оказаться просто слабой архитектурой. Тоже поглядим.

@knowledge_accumulator

👍22❤1🔥1

2.95K views10:27

Knowledge Accumulator

Правда ли бедным тяжелее, чем богатым?

Комментарии под недавним постом вдохновили меня на размышления - насколько верна мысль о том, что разрыв между богатыми и бедными склонен увеличиваться? Попробуем обрисовать картину.

Итак, представим вещественную прямую Net Worth - суммарная стоимость активов и долгов человека. Богатые находятся справа, бедные слева. Перейдём к логарифмической шкале, потому что так удобнее (не обращаем внимания на ситуацию <1$).

Давайте рассмотрим динамику движения по этой прямой. Какие у вас есть возможности двигаться вправо? Начнём с инвестиций. Сегодня почти у всех есть возможность купить самый лучший инструмент на планете - S&P500, дающий долгосрочно в среднем около 8% в год - эта скорость будет одинаковой на любой точке прямой богатства, и для этого движения нужно прилагать околонулевые усилия.

Когда эта картина нарушается? Чем вы правее, тем больше у вас Dividend / Capital gain tax (самые богатые от этих налогов, конечно, уходят), так что ваша скорость замедляется. А есть ли ситуация, когда деньги открывают возможность к более выгодному инвестированию? Ответ - разумеется! Но как?

Дело в том, что открытый рынок инвестиций самобалансируется с точки зрения доходности, и на нём вы много раз не угадаете (никто не угадывает), какой из активов принесёт больше. Доходность - это океан, и вода в нём равномерно распределяется по плоскости.

Поэтому самые богатые и обращаются за помощью к государству, которое с помощью регулирования мешает этой воде растекаться. Появляются источники "сверхприбыли", которые и помогают самым богатым отрываться от остальной массы. Борьба за свободный рынок - это борьба за отмену регулирования бизнеса, и в случае отмены открытая доходность вырастет, а неравенство между сверхбогатыми и богатыми прекратит увеличиваться, а не наоборот.

Если вы находитесь не в топ-10% , то ваш основной источник роста - это зарплата. Попасть в топ реально, и первый шаг - это найти хорошую работу. Кому-то кажется такая точка зрения неприличной, но я скажу, как есть - в 2024 году дохера возможностей попасть в топ-10% по доходам (это не такие большие деньги на самом деле), и они найдутся на любые способности - от программирования до ноготочков.

Важны, конечно, обстоятельства. В странах с более рыночной экономикой, например, США, есть много разнообразных рабочих мест с высокой зарплатой. В странах победившего социализма типа России с этим всё гораздо хуже, но, к счастью, в 21 веке переехать в другую страну неприлично легко по сравнению с былыми временами.

Да, представляете - чтобы попасть в топ-10%, нужно в своей жизни что-то поменять. Это, конечно, ужасно.

В случае, если вы начали откладывать десятки процентов доходов себе на инвестиционный счёт, вы начнёте двигаться вправо гораздо быстрее почти всех богатых - сотни и десятки процентов в год, вдобавок к тем самым 8%. Мешать вам будет, опять же государство, потому что именно на эту прослойку людей - между очень богатыми и топ-10% - обрушиваются самые безумные налоги, из-за которых их скорость обогащения замедляется в разы по сравнению со свободным рынком. Разросшийся государственный паразит активно работает на то, чтобы у самых богатых не появлялось больше конкурентов - это уменьшает их доходность.

К счастью, на текущий момент на практике стать богатым всё ещё вполне реально за одно поколение, и желаю вам успехов на этом пути, дорогие подписчики.

@knowledge_accumulator

1🤡31👍25❤4🔥3💘2👎1

3.06K views11:48

Knowledge Accumulator

Meta Agent Search [2024] vs Gödel Agent [2024] - какой подход лучше?

Поверх LLM существуют всякие hand-crafted надстройки, позволяющие выжимать больше профита - Chain-of-Thought, LLM Debate и т.д. Ресёрчеры посмекалистее (среди тех, кто занимается LLM) понимают, что нужно искать способы мета-оптимизации этой надстройки. Про одну такую работу я уже писал.

Итак, надстройку можно представить в виде кода функции, которая получает вход и применяет какую-то серию операций с LLM и не только над ней. GPTSwarm подходит к делу основательно - надстройка - это граф, и мы оптимизируем в нём рёбра с помощью RL.

Meta Agent Search идёт по более простому пути - давайте хранить библиотеку программ-агентов, их профит, и просить LLM генерировать новых кандидатов - очень похоже на идею FunSearch. Спустя итерации, агент накидывает в код комбинацию из всяких ответов, проверок, перепроверок, и мета-проверок из LLM, что в результате обходит всех hand-crafted агентов с большим отрывом.

Проблема мета-оптимизации программы в том, что это закодированный человеком фиксированный процесс. Это потенциально ограничивает скорость и пределы сходимости. У этого есть 2 решения - либо делать мета-мета-оптимизацию, либо применить ультимативное оружие - самометаоптимизацию.

Именно этим и решают заняться авторы агента Гёделя. Для появления такого феномена необходимо, чтобы программа, изменяющая код агента, содержалась в коде агента. В таком случае вам не нужно ничего оптимизировать, а только применять получившуюся модель на разных задачах и смотреть на самоулучшающийся ИИ.

Агенту дают возможность не только менять код на ходу, но и работать с содержимым переменных в памяти, в общем, можно разгуляться. По анализу получилось немного лучше Meta Agent Search, интересно, что иногда LLM додумывается отказаться от использования LLM в задаче - оказывается, не такие уж они и глупые. Комментировать результаты сравнения мне сложно, всё усугубляется отсутствием применения агента на hold-out задачах, Пространство ответов у некоторых бенчмарков не такое уж и большое, и замерять на них мета-оптимизатор это странно.

Всё это крайне напоминает "противостояние" между VSML И FME - с одной стороны, мета-оптимизация обучающего алгоритма, а с другой, самомодифицирующаяся матрица весов. На мой взгляд, как и тогда, пока потенциал мета-оптимизации не исчерпан, невыгодно перемещаться на следующий уровень - это гораздо дороже по компьюту. При этом, если мы сможем сделать AGI только на основе мета-оптимизации, экзотические методы уже можно будет не придумывать.

@knowledge_accumulator

1👍15❤2🔥1🫡1

3.71K viewsedited 11:29

Knowledge Accumulator

Почему я хочу, чтобы Дональд Козырный стал президентом США

Я не испытываю симпатии ни к одной из двух правящих в США группировок. На федеральном уровне они не проводят радикально разную политику, хотя и расходятся по каким-то вопросам вроде абортов. Обе так или иначе плавно увеличивают государство в своих интересах и не делают никаких больших шагов в обратную сторону.

Поведение государства в США соответствует стандартной логике стимулов: чиновники стремятся максимально извлечь краткосрочную выгоду из ситуации - принимают ситуативные законы, берут деньги в долг, не парясь о долгосрочных последствиях своих действий, отчего со временем накапливается всё больше и больше негативных эффектов.

Подобное долгосрочное загнивание происходит более-менее везде, потому что это результат локально оптимальной стратегии каждого действующего лица. Эта невесёлая тенденция разворачивается только в одном случае - у власти оказывается человек, идущий против стимулов. Человек, который не пытается прямо сейчас заработать лишние 5 копеек, человек, который готов пойти против армии NPC-бюрократов во имя будущего развития и, находясь у власти, добровольно уничтожал её.

Это никогда не были идеальные люди, они просто были меньшими подонками, чем остальные у власти. Таких примеров немало - Горбачёв, Дэн Сяопин, Тэтчер, Милей и т.д. - все, кто приходил к власти и вместо обогащения проводил реформы, устанавливая рыночные институты взамен власти бюрократа.

И нет, Дональд Трамп по уровню своего видения и мудрости не тянет на вышеперечисленных. По своим навыкам он похож на Навального - способен идти против системы, работать под давлением и быть тараном в борьбе против власти. Но, как и у Навального, у Трампа нет внятной картины будущего и конкретного плана реформ помимо пачки кликбейтных обещаний.

Именно поэтому, придя к власти в 2016 году, и даже получив обе палаты парламента на 2 года, Трамп не смог сделать ничего интересного. Несмотря на некоторые внешнеполитические прорывы вроде посещения КНДР (!), внутри страны ничего толком не изменилось. Интересным побочным эффектом стало только то, что теперь мы понимаем размах и мощь демпартийной номенклатуры, бросившей все ресурсы на уничтожение Трампа. Были брошены в топку все остатки репутации и приличия, и это в свою очередь позволило многим открыть глаза на происходящее.

В этот раз ситуация другая. Вокруг Трампа вырисовывается коалиция политиков, понимающих, что, собственно, делать в случае прихода к власти, и идеи у них очень даже рыночные. Главным в ней, конечно, является Маск.

Маск никогда не блистал глубокими политическими познаниями, но он явно искренен в своих намерениях. В отличие от очень многих, он способен менять свою точку зрения со временем, опираясь на реальность вокруг, и именно поэтому он частенько стал цитировать Милтона Фридмана, а также водит дружбу с Милеем. Либертарианцем он пока не стал, вот тут он поддерживает SB-1047.

Однако, из текущей точки состояния США он предлагает двигаться в том же направлении, в котором бы двигался любой либертарианец - радикально уменьшать регулирование и гос. расходы. Если Маск смог прийти в Твиттер и сократить 80% народа, особо ничего не сломав, это значит только одно - в государстве можно сократить 95%, если не 99%. И я надеюсь, его идеи удастся воплотить в жизнь.

Я не верю, что в случае поражения этой коалиции наступит конец света, США просто пойдут по европейскому пути деградации и со временем превратятся в помойку типа UK, или того хуже - Германии или России. Я хочу, чтобы хотя бы у Америки получилось пойти по другому - рыночному пути, который уже когда-то позволил превратиться США из нихера в первую экономику мира.

@knowledge_accumulator

3🤡77👍35💩10❤8💯5🤔3🤮2🔥1🤣1

3.41K viewsedited 11:57

Knowledge Accumulator

Прилетел в Германию сегодня утром, чтобы через несколько часов сесть на поезд и поехать в Польшу. После Currywurst mit Pommes я почувствовал, что зря поставил Германию в один ряд с Россией в предыдущем посте.

Выехав из Берлина, наш поезд проехал час, после чего остановился на 20 минут. Потом нам объявили, что он сломался и дальше никуда не поедет. Нас призвали устроить рейдерский захват ни в чем не повинного поезда, идущего обратно в Берлин. О том, что, собственно, дальше, пока ничего неизвестно.

Воистину, до такого состояния failed state России ещё очень далеко.

😁33🤡29❤4🥴3💯3👎2🤯2👏1

3.58K views16:47

Knowledge Accumulator

В чём мой смысл жизни?

У нас нет никакого смысла жизни, спущенного сверху. Пытающиеся его обозначить традиционные религии - это чушь, придуманная политиками и философами древности. Можно ещё вспомнить про симуляцию, но у нас нет никакой возможности узнать заложенный в неё смысл, даже если он есть.

Мы придумываем свой смысл жизни сами.

В моей голове важное место занимает концепция о том, что жизнь - это война со смертью. Сегодня мы все стареем и медленно умираем, но, думаю, что в обозримом будущем мы сможем изобрести интеллект, который позволит нам остановить старение.

Это интересный квест на ближайшие десятилетия, и я рассчитываю, как минимум, успеть получить доступ к этой технологии, а, как максимум, приложить руку к ее созданию. После остановки старения мы сможем расслабиться и не думать о том, что каждый день наша вероятность умереть возрастает и у нас есть срок годности. Этот квест может быть смыслом жизни, пока ты его не прошёл.

Но зачем всё это? Будь у меня десятки тысяч лет времени, что бы я с ними делал? Здесь можно накидывать разные варианты.

- Покорение космоса
Это действительно безумно интересно и весело, у этого есть набор практических плюсов, но, в итоге, зачем это? Заселим мы планеты, галактику, а дальше? Согласен, круто, и что?

- Технологический прогресс
Суперинтеллект быстро достигнет фундаментальных пределов во всех областях, причём, мы даже не сможем понять эти результаты. Прогресс перестанет быть связан с человеческим интеллектом.

- Дети
Интересно, но на смысл жизни не тянет, скорее, рекурсивно задаётся тот же вопрос

- Отношения с людьми
Это очень важная составляющая жизни, но тоже не кажется хорошей самоцелью.

- Физическое удовольствие
Здесь оптимальным решением будет подсосаться к капельнице с безвредной версией героина и так лежать тысячелетиями. В целом, погоня за физическим удовольствием ведёт к деградации личности, а этого я не хочу.

В результате технологического развития и доступа к бесконечным объёмам энергии исчезнут настоящие жизненные испытания. Мы предельно легко сможем выживать и удовлетворять свои потребности. Всё, что нам останется - это выполнение интересных вымышленных задач. Проще говоря, игры.

В очень широком смысле играми можно назвать множество вещей. Помимо компьютерных игр ими является спорт, хобби и некоторые аспекты в реальном мире. Например, топ самых богатых людей мира - это лидерборд в игре по накоплению денег. Попытка построить самое высокое здание в мире - это игра. Даже лепить тарелки из глины - в каком-то смысле игра.

Я могу представить себе мир, в котором люди в основном занимаются разного рода играми - смотрят, участвуют, учатся, делают ставки, спорят до посинения, бросают, находят новые. Способность учиться играть в сложные игры - это наша уникальная особенность, и мы получаем огромное удовольствие, когда находим ту самую.

Я всю жизнь обожал игры. Синдром отложенной жизни - это плохо, и я не хочу откладывать получение удовольствия до момента, пока мы не остановим старение. Да, они отнимают какое-то время, но от нескольких часов в неделю вы не достигнете меньшего. Если у Илона Маска есть время играть в Diablo между строительством ракет, машин, управлением соцсетью и участием в избирательной кампании в президенты США, то сложности в нашей жизни возникают не из-за игр.

Так что, тратя подавляющую долю времени на достижение целей в реальной жизни, я не отказываю себе в попытке получить платиновый ранг в Старкрафте на всех расах.

Суммируя все выше сказанное, получается, что я хочу победить старение, чтобы спокойно играть в комп. А какой у вас смысл жизни?

@knowledge_accumulator

1👍32🤣17🔥12🤡9😁5👾4❤2❤‍🔥1

3.42K views15:49

Knowledge Accumulator

Recommender Systems with Generative Retrieval [2023] - наконец-то генеративные рекомендации?

Нечасто пишу сюда про статьи по рекомендациям - обычно в них мало интересного, но иногда мне попадается что-нибудь стоящее.

Итак, часто, если у вас есть мощная рекомендательная модель типа трансформера, то она получает на вход пару (юзер, документ) в каком-нибудь виде и предсказывает таргеты - лайки / покупки / другие. Таким образом, одно применение модели позволяет оценить качество одного кандидата.

Такую штуку нельзя прогнать для каждого документа в базе, и поэтому существуют предыдущие стадии ранжирования, работающие более тупым образом - например, у нас есть вектор пользователя, и мы пытаемся быстро найти несколько тысяч ближайших к нему документов-соседей.

Но к этому можно подойти и с другой стороны. Пусть каждый документ представлен вектором. Может ли какая-нибудь мощная модель гененировать вектор? Напрямую делать это нельзя - mse-лоссы вроде как плохо работают в таком сетапе.

В статье предлагают перейти к трансформерному декодеру. Чтобы дискретизовать эмбеддинги, нужно обучить что-то типа VQ-VAE, который умеет превращать эмбеддинг в небольшую последовательность дискретных чисел. Таким образом, данные становятся похожими на язык.

Вкратце о VQ-VAE - вместо того, чтобы обучать скрытое представление малой размерности, мы обучаем N эмбеддингов - сodebook. Получая входной вектор, мы находим ближайший к нему в таблице, его индекс и будет скрытым представлением. Декодированием будет просто взятие нужного вектора из сodebook. Это всё, конечно, недифференцируемо, но на такой случай есть старый добрый метод - забить хер и использовать Straight Through Estimator.

В статье используют RQ-VAE - много codebook-ов, после каждого из которых мы вычитаем из входа ближайший вектор из codebook-а и затем подаём в следующий. Таким образом, каждый айтем они кодируют набором из K чисел. Утверждается, что проблемы с декодированием набора чисел в номер документа несущественны.

Также там сравнивают с более простым методом дискретизации эмбеддингов. Согласно нему, мы проводим случайные гиперплоскости в пространстве эмбеддингов и записываем, с какой стороны от каждой из них оказался айтем. Получившиеся N бит - это и есть новый номер айтема. Метод в 100 раз проще, но по результатам хуже.

У нас с коллегами возникли вопросы по применению всей этой системы в реальном мире. Главный из них - что делать, если векторные представления айтемов меняются со временем? Переобучая / дообучая RQ-VAE на ходу, нам нужно пересоздавать все дискретные представления айтемов, и каждый раз заново перестраивать весь датасет. А это фу.

Лично я пока не решусь ставить на этот подход и заниматься внедрением у себя, однако, направление генеративных рекомендаций могут оказаться перспективными в долгосрочной перспективе.

@knowledge_accumulator

👍8🔥6❤3

2.91K views11:57

Knowledge Accumulator

Моя самая большая карьерная ошибка в жизни

Шёл 2016-й, и я заканчивал первый курс своей шараги. Прошло полгода, как я плотно подсел на ML - проходил курсы на курсере, читал новомодную тогда Deep Learning Book. Благодаря призовому месту на хакатоне меня позвали в ODS - прогрессивное ML-сообщество в слаке, в котором можно было ставить реакции на сообщения.

Как-то раз я написал сообщение в чат о том, что ищу ML-стажировку и готов работать за еду. Меня позвали на месячную парт-тайм стажировку в Game Insight. Я с радостью пошёл, поскольку разработка игр была вторым вариантом моей жизненной стратегии. В качестве подготовки к работе мне было задано играть в одну из игр. В общем, красота!

Нужно понимать, что в те времена я был совсем другим человеком. Я считал единственно важной частью ML обучение моделек, а всё остальное - помехами на пути к моделированию. Хорошим программистом не был и поэтому мысли о внедрении старательно изгонял из головы. Меня интересовало великое - недавно прошедший матч AlphaGo и Ли Седоля и изобретение AGI.

Моей задачей на стажировке была разработка модели, которая предсказывает по поведению пользователя то, будет ли он донатить в игру. Жестокая реальность сломала все ожидания. Нужно было писать SQL-запросы к куче таблиц с данными о пользователях, и они, мягко говоря, оставляли желать лучшего. Я уж не помню деталей, но там было всё - аномальные пользователи, невозможные данные, поломанные таймстэмпы и т.д.

В конце концов после почти месяца ковыряний я получил как-то работающую модель. Мне показали jupyter-файл коллеги, в которой он решал ту же самую задачу, и в нём было 17 этапов очистки данных. Всё это произвело на меня ужасное впечатление. На тот момент в моей голове идеи и математика в ML первичны, а копание в сломанных реальных данных это что-то близкое к фриганству.

К сожалению, у меня не было наставника, и я остался со своей психологической травмой один на один. Мне не было близко то, что предлагает реальный ML-продакшн. Та личность, которая ценностью считает решение реальной проблемы, ещё не родилась на свет. В то же время, я ещё не понимал ценность денег, и придерживался позиции из своего первогоапрельского поста - если их хватает на жизнь, то они, в принципе, не важны.

Учитывая всё это, я отказался от намерения идти работать в прикладной ML.

Вместо этого я занимался разного рода ресёрчем - сначала применением RL на бирже, затем работал в разных лабораториях и участвовал в написаниях статей. Особо успешной эту деятельность назвать, к сожалению, было нельзя, и на то была причина.

Моё понимание мира развивалось, и в те годы до меня дошла важность политики. Уверенность в том, что AGI решит все проблемы, сменилась другой - его появление в текущих реалиях скорее приведёт к кошмарному политическому сценарию - такому, к которому сегодня стремится OpenAI и о котором мечтал Илья Суцкевер. Таким образом, я занимался ещё и ей, совмещая с парт-тайм работой и учёбой в универе.

Всё это время я не развивался, как прикладной ML-щик, как разработчик, но ни о чём не жалею, поскольку в процессе той деятельности приобрёл массу уникального опыта и очень многое осознал.

К 2020-му я уже окончательно переродился, как решатель прикладных проблем, так что, когда политика в России окончательно накрылась, в скором времени, в 2021-м, я пошёл работать над рекомендательными системами в Яндексе, что оказалось очень даже интересным занятием. Однако, мне не хватает этих 5 лет опыта в нормальной разработке, и это преследует меня по сей день.

@knowledge_accumulator

👍29🤡14❤8🔥3🫡3🤣2

3.24K viewsedited 12:44

Knowledge Accumulator

The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [2024] - так что, трансформеры работают на ARC?

Вы могли читать в соседних каналах о том, что LLM смогли приспособить для решения ARC - теста на способность распознавать и применять паттерны по нескольким обучающим примерам. Многие топовые решения основываются на поиске программ, тогда как применение GPT-4 / o1 даёт весьма скромный результат.

В данной работе авторы добавили в LLM-пайплайн несколько улучшений, позволивших получить результат в 62% - число, немного превышающее Avg. Human. Давайте разберёмся, как к этому пришли.

Изначальную LLama файнтюнят с помощью так называемого ReARC - датасету из искусственно сгенерированных задач. Чтобы их получить, был выписан набор элементарных трансформаций над плоскостями, из которых составлялись задачи и образцы. Из этого добра составлялись сэмплы для few-shot in-context обучения. Она решает 5 задач из 80.

Далее наступает Test-Time Training. Получив датасет из N тренировочных пар вход-выход, мы строим следующий датасет для In-Context Learning:

1) Берём каждый из N сэмплов и превращаем в таргет для in-context обучения, т.е. подаём на вход N-1 сэмплов с таргетами и предсказываем N-ный выход.
2) Обкладываем всё дата-аугментациями - симметрии, повороты, перемешивание тренировочных пар, скейлинг. Молимся, чтобы это не повлияло на задачу.
3) Дополнительно, обучаемся предсказывать таргеты со 2-го по N-1-й, это в статье называют Demonstration loss.

Обучаем LoRA (малопараметрический файнтюн) на каждую отдельную задачку в ARC на описанном выше датасете. Во время тестирования, применяем аугментации к задаче и потом ревёрсим обратно предсказанный ответ. Для выбора 2 финальных ответов проводятся выборы. Всё это в сумме даёт 29 задач из 80. Давайте глянем на Ablation:

1) Если обучать одну LoRA на все задачи - 22 / 80
2) Если не применять дата-аугментации - 13 / 80
3) Если вместо хитрого in-context test-time training просто файнтюнить на N сэмплах - 18 / 80
4) Если не файнтюнить модель на ReARC - 9 / 80
5) Если попросить GPT-4o сгенерировать ARC задачи для файнтюна и добавить к ReARC - 24 / 80 😁

Все эти замеры проводились на основе LLama-1B, Llama-8B даёт уже 36 из 80 - результат в 45%. А откуда же взялся результат в 62%? Для этого авторы совместили свою статью с другим подходом - статьёй BARC, про которую я расскажу в следующий раз. Применяя test-time training к нейросети из BARC, получается 53%. Чтобы получить 62%, нужно ансамблировать решение с синтезатором программ.

Интересно, какой был бы результат у всего этого на реальном тестовом ARC-датасете. Могу поверить, что какой-то близкий к этому числу, но теоретически возможны и лики. Всё-таки, авторы тюнили все детали своего подхода на наборе из 80 задач, кроме того, датасет для файтнюна (без которого это почти не работает) теоретически мог содержать операции, слишком близкие к public validation. Именно эти опасности и устраняются наличием полностью секретного тестового датасета.

О том, что нам этот результат даёт в более широком контексте. мы поговорим потом, а пока что просто порадуемся за команду.

@knowledge_accumulator

👍13❤1👎1👏1

2.73K viewsedited 13:32

Knowledge Accumulator

Почему нельзя доверять людям

Многим попадались нарезки с российского ТВ, когда доктор медицинских наук пересказывает байки с третьесортных сайтов. Если вас это хоть чуточку удивляет, то данный пост для вас.

Почти все мы занимаемся созданием продуктов интеллектуального труда. Этим является всё - от гороскопов в "Комсомольской правде" до фреймворка для нейросетей. Существует 2 вида валидации продукта - назовём их человеческий и проблемный.

Человеческий объединяет все валидации вида "Другой человек посмотрел и одобрил результат" - начиная от ревью научных статей и заканчивая проверкой домашки по ИЗО в школе. Проблемный - проверка вида "По-честному тестируем на задаче".

Проблемный способ валидации самый лучший. Только он позволяет надёжно установить, что решение работает. По сути, такую проверку можно описать как "контролируемое исследование" - от слепого тестирования лекарства против плацебо до проверки предсказания гороскопа.

Но вот беда - проблемный способ редко применим, и поэтому в большинстве сфер нашей жизни доминирует именно человеческая валидация. У неё есть одна маленькая проблема: она - говно. Давайте через эту призму взглянем на то, как работает "научное сообщество".

Начиная с бакалавриата, продвижение по научным званиям сопряжено с написанием сочинений - курсовые, дипломные работы, статьи и диссертации. Их проверяют люди с более высоким научным званием разными способами - пишут отзывы, рецензии, устраивают защиты. Всё это - человеческая валидация.

Достаточно легко предсказать, что происходит с системами, построенными только на человеческой валидации. Даже будучи созданной гениями, со временем в неё проникает всё больше людей, которые плохо валидируют результаты - им либо лень, либо пофиг, либо они максимизируют свою личную выгоду внутри системы. Чем эта система больше, тем больше она подчинена процессам, а их легко абьюзить.

К счастью, в таких системах можно бороться со скатыванием. Для этого необходимо внедрять проблемные методы валидации продуктов труда. Они позволяют не только продвигать внутри системы реально полезных людей, но и валидировать систему снаружи.

Я придерживаюсь такого правила - если у человеческой системы нет обширной проблемной валидации, то, скорее всего, ей не нужно доверять. Рассмотрим на примерах.

Почему я знаю, что сообщество инженеров или врачей - в целом норм? Они производят продукты, регулярно тестируемые практикой. Лекарства по-честному тестируют и они реально улучшают жизнь, а ракеты и спутники летают и не падают. Чем ближе конкретный эксперт к созданию этого решения, тем больше он заслуживает доверия. Но вдали от таких проверок, даже внутри сообщества будет доминировать скам. Отсюда и берутся те самые докторы на российском ТВ.

К сожалению, подавляющее большинство человеческих систем вообще не базируются на проверках реальностью, и весь их пафос и регалии базируются только на том, что эксперты экспертно оценивают других экспертов. Часто, когда продукт таких областей подвергают честной проверке, ничего не работает, и тогда эксперты возвращаются в своё комфортное логово.

В качестве примеров могу привести альтернативных медиков, психологов, экстрасенсов, гороскопистов, экономистов. Нельзя сказать, что все сообщества монолитны. Даже внутри физиков существуют псевдонаучные течения, а среди гороскопистов и экономистов есть люди, честно пытающие предсказать будущее, хоть у них это и не получается сделать.

Не существует идеальной формулы, мой пост - всего лишь попытка обрисовать фреймворк, помогающий строить работающую картину мира. Когда вы видите человека, обвесившегося регалиями, спросите себя (или его) - а кто валидировал тот факт, что ты не осёл? Если ответ - другие такие же эксперты, то можно смело придавать ему вес анонима из интернета. Так вы избавите себя от информационного шума.

@knowledge_accumulator

1👍19💩7🤡7🤣7🔥6💯2👏1🤨1

2.92K views12:47

Knowledge Accumulator

Combining Induction and Transduction for Abstract Reasoning [2024]

В прошлом посте про ARC я расссказал про решение, которая даёт 62% в комбинации с так называемым синтезатором программ. Сегодня мы поговорим о том, что это за зверь.

Авторы рассматривают 2 подхода к решению ARC:

1) Transduction - это когда у нас есть нейросеть, получающая на вход тренировочные пары вход-выход + тестовый вход и предсказывающая тестовый выход - такую модель мы как раз и видели в тот раз.
2) Induction - получая на вход тренировочные пары вход-выход, мы генерируем программу на питоне, превращающую вход в выход. Затем мы применяем её на тестовом входе

Итак, начнём с того, как авторы собирали датасет для Induction-модели.

Сначала авторы собирают вручную так называемый seed-датасет - это 100 ARC-задач, для которых вручную написаны программы на питоне, а также текстовые описания этих задач. Далее GPT-4 просят наплодить большой датасет синтетических задач, рекомбинируя описания и код изначальных ста.

На таких данных можно делать нечто похожее на обучение задачкам по программированию: дообучаем LLM по задаче гененировать питон код, а во время инференса генерируем много программ-кандидатов, которые потом можно фильтровать, проверяя на тренировочных парах.

Интересный сюжетный поворот - задачи, которые решают Transduction и Induction-модели, даже если их учить на одних и тех же сетах задач, пересекаются далеко не полностью. В самом топовом запуске Induction набирает 38%, Transduction 43%. а их ансамбль аж 57%. Авторы проверили, что это не результат случайной инициализации.

Ансамблировать их, кстати, можно и вслепую - если Induction-модель не сгененировала ни одну программу, которая подходит под тренировочные примеры, мы в качестве решения выдаём Transduction-кандидата.

Интересно понять - откуда берётся такое отличие в решаемых задачах у 2 подходов, даже если их учат на одном и том же? Немножко пролить на это свет помогает Ablation на задачах из ConceptARC - упрощённом датасете, в котором применяется одна "абстрактная концепция".

Например, программный синтезатор сильно лучше справляется с извлечением объектов и подсчётом, тогда как трансдуктор лучше в раскрасках и чём-то подобном. Примеры задач, приведённые автором, я прикрепил к посту.

Статья интересная, правда, есть те же опасения по поводу утечки задач через эту самую синтетику. Маленькая версия их модели, которую они засабмитили в настоящий тест, дала 18% через Transduction и только 4% через Induction (ансамбль дал 19%, SOTA = 55.5%) - это может говорить о том, что базовые операции сильно отличаются у скрытого теста и так просто справиться с ним не выйдет. Будем следить за развитием событий.

@knowledge_accumulator

👍10❤3🔥3

2.49K views13:12

Knowledge Accumulator

Почему с экономическим ростом не всё так просто

Все мы знаем, что ВВП - суммарная произведённая стоимость товаров и услуг в стране - мера, используемая для оценки размера экономики страны. ВВП в выбранный момент времени позволяет удобно сравнить экономики. Например, в 2023 году ВВП США - 27 триллионов, Китая - 18, России - 2. Вроде бы понятно.

Но мы так же часто слышим понятие "Рост ВВП" и кажется, что он отображает увеличение суммарной стоимости товаров, а значит, если ВВП растёт, тем более, с поправкой на инфляцию, то все мы становимся богаче. Но всё не настолько просто. Давайте разберёмся, почему.

У ВВП существует несколько эквивалентных величин - например, суммарный доход всех экономических агентов в стране тоже равен ВВП. Среди его близнецов есть один с особенностями развития - а именно, ВВП равен Money Supply x Money Velocity.

Money Supply - количество денег в экономике
Money Velocity - скорость обращения денег - грубо говоря, сколько раз в среднем карманов сменил каждый доллар.

На этом месте у вас могут возникнуть подозрения. Money Supply - величина, совершенно нерелевантная крутости экономики. Денег можно сделать в 100 раз меньше или в 2 раза больше, через какое-то время цены изменятся аналогично.

Что же Money Velocity? По сути это отражение количества транзакций в экономике. Да, есть какая-то корреляция между экономический активностью и скоростью, между сложностью экономики и скоростью, но сравнивать экономики тупо по скорости - идея сомнительная. Вот график для США: https://fred.stlouisfed.org/series/M2V.

Таким образом, получается, что ВВП в стране равен произведению 2 величин, практически не связанных с реальным благосостоянием. Приехали. Для корректировки этого недоразумения и используют инфляцию - изменение стоимости потребительской корзины. По сути, все рассматривают отношение инфляции к росту ВВП как показатель роста благосостояния.

Но и тут проблема - корзина и товары сами по себе меняются со временем. Сколько стоил бы айфон в 2004 году? Мы не начинаем производит те же самые товары дешевле и эффективнее, всё меняется неизмеримым образом. А как тогда нам численно понять, у нас золотой век или раньше было лучше?

Да никак, более того, ответа не существует. С одной стороны, произошла информационная революция - компьютеры, смартфоны и интернет, с другой, реальная стоимость недвижимости довольно сильно растёт, а колбаса по 2.20 уже не такая вкусная.

Интересны аномалии - что, если товар остаётся примерно таким же в течение времени, а его цена растёт, как, например. с домами? Возможна ли ситуация на рынке, при которой товар подорожал в несколько раз, а производители не отреагировали увеличением спроса?

Конечно, если в дело вступило любимое государство, регулирующее строительные компании и вводящее разного рода ограничения. Но это уже другая история.

@knowledge_accumulator

👍6🥴6❤1🔥1😁1🤡1

2.64K viewsedited 12:32

Knowledge Accumulator

Выбираем самый херовый план по достижению AGI

Существуют разные подходы к исследованиям. Кто-то пытается описать долгосрочный план заранее и потом следовать ему, а кто-то принципиально от этого отказывается, аргументируя невозможностью предсказывать ход работы заранее.

Лично я считаю, что хоть какое-то глобальное видение необходимо, поскольку оно позволяет не заниматься локальной оптимизацией ненужного говна. Я видел бесчисленное количество статей, которых могло бы не существовать, если бы авторы спросили себя - "а вот это всё вообще хоть кому-то реально понадобится?".

Но на другой стороне спектра тоже весело. Когда составить план по достижению AGI поручают топ-менеджеру или SMM-щику биг-тех компании, получается примерно следующее:

- Этап 1: слабый AI - работает так себе
- Этап 2: средний AI - работает неплохо, но не особо круто
====== Мы сейчас здесь========
- Этап 3: крутой AI - работает чётко и качественно
- Этап 4: охуенный AI - переворачивает мир

Положим такой план за точку отсчёта. Как по отношению к ней смотрятся реально существующие? Ныряем в мусор.

Статья от Deepmind - Levels of AGI: Operationalizing Progress on the Path to AGI. Это не декларируется, как план, скорее, просто классификация уровней AGI. По одной оси там "крутизна" - перцентиль людей, а по другой - "Generality", причём всего 2 значения - Narrow и General. В столбце General на уровне крутости "кое-как" они поставили ChatGPT, все последующие столбцы в General пока пустуют.

У OpenAI тоже всё на уровне. Вот тут пересказываются (как я понял, неоткрытый) план из 5 уровней AGI - Chatbots (AI with conversational language), Reasoners (human-level problem solving), Agents (systems that can take actions), Innovators (AI that can aid in invention), Organizations (AI that can do the work of an organization). План, конечно, потрясающий, очень похож на мой выше, но на первое место поставить не могу, поскольку есть вероятность, что внутри OpenAI есть документ с нормальным описанием этих уровней, ведь в OpenAI серьёзные учёные работают, так ведь?

Вот тут есть отрывок интервью Миры Мурати, где она говорит, что GPT-3 это toddler, GPT-4 это high schooler, а следующая модель будет уже PhD level. А помните, был ещё Situational Awareness? Там план отличается - в ней GPT-2 preschooler, а GPT-3 это Elementary Schooler. Возможно, на почве этого расхождения и возник политический кризис и массовый уход людей из OpenAI.

Двигаемся дальше. А вы знаете какой-нибудь план, хотя бы немного напоминающий что-то адекватное?

На ум приходит отрывок из JEPA, но там нет уровней и таймлайна - ЛеКун обрисовывает видение полного AGI и делает вывод о том, какие части понятны, а какие совсем ещё нет. Проблема такого подхода в том, что по нему нельзя построить какой-либо роудмап будущих шагов.

Где с шагами проблем нет, так это в The Alberta Plan - работа от Ричарда Саттона, где описывается цепочка из 12 шагов улучшения модели, которые в итоге как бы должны привести к AGI. Тут можно посмотреть видеообзор этой работы. Это лучшее, из того, что я видел, но всё ещё очень далеко от того, под чем бы я подписался. Проблема не в деталях, а в подходе.

Статья концентрируется на прогрессивном улучшении методов - и это то, в чём у меня с ней корневое расхождение. Когда говорят о том, что планировать ресёрч надолго нельзя, говорят именно об этом - хер его знает, будет ли в принципе твоя схема работать после этих изменений. Сами шаги местами довольно расплывчатые, в то время как прыжки между ними тоже не всегда понятны, особенно, ближе к концу. Так что, тоже дизлайк.

Присылайте свои любимые AGI-роудмапы в комментарии, а в следующий раз я расскажу, как бы выглядел мой "AGI-план", если бы я набрался наглости его написать.

@knowledge_accumulator

1👍16❤4😁1

3.41K viewsedited 12:59

Knowledge Accumulator

Кринж-пост

Сегодня я хотел бы поговорить об очень деликатной для многих из нас теме - о кринжовых моментах.

У многих из нас были такие ситуации, когда мы что-то сказали или сделали, допустили ошибку, а потом нам за это стыдно. В экстремальных случаях это может стать катастрофой для человека, особенно, если что-то произошло публично. Иногда это проблема собственного восприятия, но если вы случайно отправили своё домашнее порно в чат со всеми родственниками, а потом в панике удалили его у себя, то...

Когда я только начал учиться в универе, мои социальные навыки были сильно плохи (они и сейчас не огонь). Нередко я говорил какие-нибудь глупости другим людям. Кроме того, так как уже в 18 я начал работать в ML, эти неловкие моменты создавались и между мной и моими коллегами/руководителями.

К счастью, на моём счету нет каких-то совсем уж катастрофических позоров, испортивших мою карьеру. Однако, к сожалению, многие из этих моментов до сих пор живут в моей голове.

В интернете успокаивают - "Да не беспокойтесь! А вот вы-то помните кринжовые моменты других людей?". Проблемы тут две - во-первых, "Конечно, не помните, потому что кроме вас так никто не позорился". А во-вторых, вообще-то, я помню некоторый чужой кринж.

И у меня нет каких-то отрицательных эмоций на этот счёт по отношению к другим. У каждого человека бывают моменты, когда он затупил, ему было плохо, не выспался, и он сказал какую-то глупость. Я легко прощаю такое другим людям. Но поступают ли так же все остальные?

У меня не получается до конца отпустить все свои кринжовые поступки. Иногда вживую можно увидеть, как я внезапно делаю такое выражение лица, как будто сел на кол. Но это не неврологическое заболевание - это я вспомнил момент из прошлого, за который до сих пор стыдно.

Всё усугубляется тем, что мы не можем подойти к другому человеку и спросить - "скажи, пожалуйста, а ты уже забыл, как я ...?" Возможно, ситуации бы помог специальный праздник, скажем, Кринжовое воскресенье, когда мы все, не вспоминая конкретные случаи, прощали всех остальных за их кринж. Проблема, правда, в том, что это скорее всего уменьшит долю забытого кринжа, а это - ключевой момент.

Несмотря на всё это, я всё-таки веду публичный телеграм-канал - где, как ни здесь, генерировать моменты, за которые потом будет стыдно. Однако, тут у меня подход противоположный - публично высказанное ошибочное мнение и последующее высмеивание в комментариях - именно то, что позволяет развиваться и менять своё мнение в правильную сторону.

Расскажите в комментариях свои истории из жизни, за которые вам очень стыдно, и которые вы хотите, чтобы все забыли. Давайте попробуем простить друг друга. Но сначала над вами поржём.

@knowledge_accumulator

1👍15😁8❤3👎1

3.76K views11:57

Knowledge Accumulator

Провёл неделю в Долине

Не знаю, заметили ли вы моё отсутствие на этой неделе, у него была причина - я съездил в командировку в главный инженерный офис X в Palo Alto.

Это моя первая поездка в США, и моей картине мира предстояло пройти серьёзный реалити-чек. Итак, что могу сказать по этому поводу:

Про бомжей - всё правда.
В некоторых местах Сан-Франциско тотальный пиздец, в некоторых более-менее, но их все равно в целом много, даже в Долине. В отличие от лондонских коллег, которые сидят на своих картонках с 9 до 6 и разводят лохов на подачки, эти дышат воздухом свободы и частенько мешают окружающим. Вся эта катастрофа, конечно же, сотворена местными властями и постоянно ими поддерживается. Про это поговорим подробно в другой раз.

Про еду - ожидал худшего.
Да, в Wallmart действительно продают канистры газировок, арахисовой пасты и полукилограммовые мешки чипсов. Количество говна зашкаливает, как я и ожидал. Но, очевидно, его можно просто не покупать. Что приятно удивило, так это наличие нормальной еды в соседних магазинах типа Whole Foods и Safeway, причём, неплохая готовая еда тоже есть.

Про машины - терпимо
Я не заглядывал в street view, поэтому был удивлён наличию нормальных тротуаров в Долине. Расстояния большие, светофоры предпочитают машины, поэтому ходить долго, но очень даже комфортно. В Долине безумно много зелени и красивых мест, так что, гулять пешком тут есть где. Конечно, тут оптимально ездить на машине, но мы с женой не против такого образа жизни.

Что касается самой командировки, то я доволен. Сразу скажу - Маска один раз видел в столовке, но на очной встрече не был.

Офис в Palo Alto ощущается совсем по-другому. Чувствуется нахождение в центре событий, ну и связь между мной и коллегами становится чуть менее сухой и формальной.

Планирую релоцироваться по L1, как стукнет год, ну и потом можно будет поменять визу на другую, а пока что продолжу работать из Лондона.

В следующие 2 недели у меня тур по США, посмотрим, как оно в других местах. Про местные приколы обязательно расскажу.

@knowledge_accumulator

2👍67❤15🔥13😢2😇1

3.6K viewsedited 20:02

Knowledge Accumulator

Heart Attack Grill - как рынок тестирует границы возможного

Америка - интересное место. Разнообразие и степень абсурда некоторых вещей удивляет, но про один такой случай я решил написать отдельный пост.

Мы были 2 дня в Лас-Вегасе - городе-карикатуре. В этом дисней-лэнде для взрослых есть многое - копия Эйфелевой башни, венецианских каналов, отель-казино в форме египетской пирамиды (конечно, со сфинксом), реклама проституток на грузовиках, ну и, конечно, 150-метровая полусфера-экран. Но мы были кое-где ещё.

Heart Attack Grill - заведение с интересной репутацией. Это своего рода больница, но лечат тут только одно - анорексию. Методика простая - продают максимально калорийную и вредную еду.

Здесь один вид бургеров, но можно выбрать от 1 до 8 этажей - последний содержит 20 тысяч калорий - в какое-то время держал мировой рекорд среди коммерчески доступных - при стоимости в 35 долларов.

Запить можно банкой колы (конечно, не zero), но также доступен шприц коктейля (который тебе впрыснут в рот) и капельница вина, с краником. Закуски и милкшейки в наличии. Чтобы не запачкаться всем этим счастьем, на входе тебе надевают медицинский фартук, ну а официантки ходят в обтягивающих медицинских "халатах".

Пока ты наслаждаешься едой и процедурами, можно почитать постеры о том, как круто получать удовольствие от жизни, объедаясь вкусной едой, ну или посмотреть видос на каком-нибудь из 30 экранов, на котором те же официантки соблазняются от вида 300-килограммового представителя заведения, поедающего их бургер (который УМЕР 12 лет назад в 29-летнем возрасте).

Кафе не просто зарабатывает, но и отдаёт обществу - люди, весящие больше 158кг, могут есть в нём бесплатно! Пройти проверку можно прямо в помещении, взвесившись публично на огромных весах.

Пациенты обязаны относиться к лечению со всей отдачей - поэтому, если вы не доедите, то вас отхерачат по жопе на выходе чем-то типа скалки. Мы старались и смогли этого избежать.

На ютубе полно видосов про это место, вот в этом есть ещё и интервью с владельцем - посмотрите, это снос крыши, все приколы у меня тупо не влезли в пост.

Я, как фанат свободного рынка, полностью одобряю данную концепцию. Добровольные способы себе навредить делают нас лучше. Самые глупые из нас должны иметь возможность есть в этом кафе каждый день бесплатно и потом от этого умереть - это двигает человечество вперёд.

Без этого кафе мир был бы менее весёлым местом, а сходить туда - это уникальный опыт. Оно является канарейкой в шахте - само его существование и работа демонстрирует, что рыночная экономика работает и в ней можно продавать всё (или хотя бы всё, что не запрещено). Его насильственное закрытие было бы ужасным знаком для общества, и мы должны внимательно следить за тем, что такие места имеют возможность работать.

God bless the U.S.A. 🦅🦅🦅🇺🇸🇺🇸🇺🇸

@knowledge_accumulator

2🤡25👍20❤7🔥4👏4🙈4🤯2

3.05K viewsedited 13:22

Knowledge Accumulator

А как же должен выглядеть правильный "AGI-роудмап"?

Напомню неформальное определение интеллекта, которого сейчас придерживаюсь:
Интеллект - это мера эффективности использования данных для приобретения новых навыков.

Это характеристика алгоритма обучения. Я уверен, что мы используем очень плохие алгоритмы - как минимум потому, что они сконструированы людьми вручную. Также, как и когда-то создание признаков вручную, создание алгоритмов должно пасть под ударом мета-лёрнинга.

Для долгосрочного ресёрча необходим план, но не такой, какие я упоминал раньше. Это должен быть задаче-ориентированный план.

Каждый пункт в этом плане должен состоять из зафиксированных данных и тестовой задачи. Нам нужно начать с простейший постановки, в которой мы умеем обучать модель, превосходящую человека, и постепенно усложнять её следующими способами:

1) Уменьшение тренировочных данных для тестовой задачи
2) Увеличение разнообразия, количества, бесструктурности прочих данных
3) Усложнение тестовой задачи

Вариантов реализации может быть достаточно много, приведу набросок одной из возможных:

Уровень №0: Элементарный RL с нуля
Дано: 10к шагов взаимодействия со CartPole, далее тестируем

Уровень №1: RL с нуля
Дано: 100к шагов взаимодействия со Atari, далее тестируем

======= Текущие алгоритмы находятся здесь =========

Уровень №2: RL с помощью демонстраций
Дано: 100к траекторий игры среднего человека в Atari; 10к шагов взаимодействия с Atari, далее тестируем

Уровень №3: Сложный RL с помощью демонстраций
Дано: N траекторий игр людей в Starcraft; K часов игры против бота, далее тестируем

Уровень №4: Сложный RL с использованием кучи разных данных
Дано: википедия, форумы по starcraft, видео по starcraft; 1 час игры против бота, далее тестируем

Уровень №5: Сложный RL с самостоятельным поиском необходимых данных
Дано: википедия, доступ к чтению интернета на X часов; 1 час игры против бота, далее тестируем

Уровень №6: ASI
Дано: википедия, доступ к чтению интернета на X часов; Текстовый запрос с описанием того, какую задачу нужно решить; N часов на генерацию ответа, далее его проверяет система (данных для такой постановки пока нет).

Далее поступаем по вкусу.

К сожалению, в пост не влезут все примечания и оговорки по поводу этих уровней, если вам интересно, в чём мотивация того или иного пункта, готов обсудить в комментариях. Кроме того, это лишь набросок, и по мере продвижения по шагам детали могут меняться.

Я верю в то, что существует малоразмерная параметризация обучающего алгоритма, который, если обучать с помощью meta-learning, можно продвинуть по всем этим уровням, каждый раз добиваясь superhuman-level. И если весь мир будет занят прикручиванием human-level моделек, обученных подражать людям, к прикладным задачам, за создание сверхразума придётся взяться кому-то ещё.

@knowledge_accumulator

3👍22❤6🗿2🔥1👏1🙏1😘1

3.1K views13:00

About

Blog

Apps

Platform