Новость, уже ставшая постоянной рубрикой канала: OpenAI покинул очередной ведущий специалист
В этот раз это Майлз Брендедж – он был старшим консультантом OpenAI по AGI и возглавлял команду AGI Readiness. Майлз проработал в компании 6 лет. В своем прощальном блоге он написал, что уходит, потому что хочет влиять на развитие ИИ "снаружи отрасли, а не изнутри".
А вот еще одна интересная цитата из этого блога:
Майлз пишет, что хочет создать nonprofit организацию/присоединиться к существующей и сосредоточиться на исследовании политики в отношении AGI. Исследователь также написал, что в последнее время в OpenAI он работал над уточнением термина AGI и этапов развития ИИ (то, о чем говорил Альтман), и, возможно, скоро на эту тему выйдет статья.
В этот раз это Майлз Брендедж – он был старшим консультантом OpenAI по AGI и возглавлял команду AGI Readiness. Майлз проработал в компании 6 лет. В своем прощальном блоге он написал, что уходит, потому что хочет влиять на развитие ИИ "снаружи отрасли, а не изнутри".
А вот еще одна интересная цитата из этого блога:
Вообще говоря, ни OpenAI, ни любая другая лаборатория, ни мир в целом не готовы к AGI. Это не камень в огород OpenAI, просто человечество только в начале этого пути и пока готовится к тому, чтобы быть готовыми к AGI.
Майлз пишет, что хочет создать nonprofit организацию/присоединиться к существующей и сосредоточиться на исследовании политики в отношении AGI. Исследователь также написал, что в последнее время в OpenAI он работал над уточнением термина AGI и этапов развития ИИ (то, о чем говорил Альтман), и, возможно, скоро на эту тему выйдет статья.
Улучшенная версия BPR
В рекомендациях, как известно, бейзлайн побить обычно сложно, и часто старые добрые модели работают гораздо лучше новых, если уделить достаточно внимания деталям.
Так вышло и в этом случае. BPR (Bayesian Personalized Ranking) была изобретена еще в 2012 году, и за 12 лет расплодилось куча ее реализаций: в каждой библиотеке своя, у кого-то работают похуже, у кого-то получше. А у ресерчеров из T-Bank AI Research получилось создать новый золотой стандарт – SOTA версию алгоритма.
Ребята пересмотрели и доработали все компоненты BPR, и, учитывая влияние каждого из параметров, пересобрали эффективную реализацию. Для этого, кстати, понадобилось более 200 000 GPU-часов и 15 000 экспериментов😱
В итоге в некоторых случаях она превзошла другие модели почти на 50% по точности (в частности, популярную реализацию из RecBole). Это не все: модель обошла даже хайповую Mult-VAE от Netflix и оказалась точнее на 10%!
Работу, кстати, уже презентовали на ACM RecSys в Италии. Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline.
Исходный код и дополнительные материалы можно найти на GitHub.
В рекомендациях, как известно, бейзлайн побить обычно сложно, и часто старые добрые модели работают гораздо лучше новых, если уделить достаточно внимания деталям.
Так вышло и в этом случае. BPR (Bayesian Personalized Ranking) была изобретена еще в 2012 году, и за 12 лет расплодилось куча ее реализаций: в каждой библиотеке своя, у кого-то работают похуже, у кого-то получше. А у ресерчеров из T-Bank AI Research получилось создать новый золотой стандарт – SOTA версию алгоритма.
Ребята пересмотрели и доработали все компоненты BPR, и, учитывая влияние каждого из параметров, пересобрали эффективную реализацию. Для этого, кстати, понадобилось более 200 000 GPU-часов и 15 000 экспериментов
В итоге в некоторых случаях она превзошла другие модели почти на 50% по точности (в частности, популярную реализацию из RecBole). Это не все: модель обошла даже хайповую Mult-VAE от Netflix и оказалась точнее на 10%!
Работу, кстати, уже презентовали на ACM RecSys в Италии. Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline.
Исходный код и дополнительные материалы можно найти на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52🔥12🍌12🤯4😎3
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity встраивает в свой поисковик продвинутый ризонинг
Об этом написал в твиттере CEO стартапа Аравинд Сринивас. Пока фича на стадии тестирования и доступна только в Pro. При этом ризонинг используется не для всех запросов, а только для сложных или составных – классификация происходит автоматически. Для особенно сложных промптов процесс «обдумывания» может занимать до нескольких минут.
Об этом написал в твиттере CEO стартапа Аравинд Сринивас. Пока фича на стадии тестирования и доступна только в Pro. При этом ризонинг используется не для всех запросов, а только для сложных или составных – классификация происходит автоматически. Для особенно сложных промптов процесс «обдумывания» может занимать до нескольких минут.
🔥46👍7❤5
Media is too big
VIEW IN TELEGRAM
А вот Ян Лекун по поводу ризонинга настроен не так оптимистично, как стартапы. Вот что он сказал на своей недавней лекции:
Лекун также ссылается на исследователя по имени Subbarao Kambhampati, у которого есть целая серия статей про то, что LLM не могут планировать. Серьезно, статьи так и называются: "LLMs Can't Plan", "LLM Still Can't Plan" и так далее в том же духе. Кажется, у него стоит поучиться отстаивать свою позицию😎
"Языковые модели НЕ МОГУТ рассуждать или планировать — даже такие модели, как o1 от OpenAI. Нам кажется, что они рассуждают, но на самом деле они просто выполняют интеллектуальный поиск.
Это не значит, что LLM бесполезны. Они очень полезны. Но тем не менее, они – не путь к суперинтеллекту, несмотря на то, что говорят некоторые в США."
Лекун также ссылается на исследователя по имени Subbarao Kambhampati, у которого есть целая серия статей про то, что LLM не могут планировать. Серьезно, статьи так и называются: "LLMs Can't Plan", "LLM Still Can't Plan" и так далее в том же духе. Кажется, у него стоит поучиться отстаивать свою позицию
Please open Telegram to view this post
VIEW IN TELEGRAM
❤54👍38😁19🤨2🎅1
Media is too big
VIEW IN TELEGRAM
Anthropic представили новую фичу Claude – аналитический движок для обработки и анализа данных в реальном времени
Вся фишка в том, что интерфейс пишет и запускает JavaScript код, проверяя свои гипотезы и подводя аналитику, и только затем показывает результаты пользователю. Так он может строить графики, обрабатывать данные из файлов и делать по ним выводы.
Инструмент также красиво коннектится с Anthropic Artifacts (см. видео) и исследователи говорят, что с помощью него теперь можно добиваться более точных результатов не только в аналитике, но и в коде и математике.
Тулза доступна всем пользователям в feature preview
Вся фишка в том, что интерфейс пишет и запускает JavaScript код, проверяя свои гипотезы и подводя аналитику, и только затем показывает результаты пользователю. Так он может строить графики, обрабатывать данные из файлов и делать по ним выводы.
Инструмент также красиво коннектится с Anthropic Artifacts (см. видео) и исследователи говорят, что с помощью него теперь можно добиваться более точных результатов не только в аналитике, но и в коде и математике.
Тулза доступна всем пользователям в feature preview
❤36👍18🤯10
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs зарелизили новую модель для генерации уникальных голосов
Эта лаба вообще известна своими voice решениями: у них и инструменты text2speech, и text2sound, и voice cloning, и еще много всего. Но этот релиз уникальный, потому что подобных решений, в отличие от того же voice cloning, на рынке совсем немного.
И вообще, voice generation – это в оригинале идея ElevenLabs. У них эта моделька живет с начала 2023, но до этого голос нельзя было генерировать по промпту: можно было только выбрать для него фичи из списков (в духе высокий голос/низкий, старый/молодой).
При этом сейчас чтобы сгенерировать голос, достаточно описать персонажа, котрый им говорит: его характер, происхождение, род деятельности. Кроме того, у лабы уже есть готовая библиотека генераций, там около 3000 примеров.
Попробовать можно бесплатно здесь
Эта лаба вообще известна своими voice решениями: у них и инструменты text2speech, и text2sound, и voice cloning, и еще много всего. Но этот релиз уникальный, потому что подобных решений, в отличие от того же voice cloning, на рынке совсем немного.
И вообще, voice generation – это в оригинале идея ElevenLabs. У них эта моделька живет с начала 2023, но до этого голос нельзя было генерировать по промпту: можно было только выбрать для него фичи из списков (в духе высокий голос/низкий, старый/молодой).
При этом сейчас чтобы сгенерировать голос, достаточно описать персонажа, котрый им говорит: его характер, происхождение, род деятельности. Кроме того, у лабы уже есть готовая библиотека генераций, там около 3000 примеров.
Попробовать можно бесплатно здесь
🔥35👍14❤3
Media is too big
VIEW IN TELEGRAM
Тем временем в сети кто-то уже умудрился подключить нового агента Anthropic к телефону, заставить его следить за статистикой в спорт-приложении и даже сыграть с другим ИИ в шахматы
👍44😁12❤5🤔3
Kaggle совместно с Google открыли запись на пятидневный интенсив по генеративному ИИ
Он разработан ML-инженерами Google и пройдет с 11 по 15 ноября. Для участия нужно просто зарегистрироваться: интенсив бесплатный и не подразумевает вступительных испытаний. За пять дней обещают кучу теории и практики, ежедневные задания и семинары, а еще будет комьюнити в Дискорде.
Звучит однозначно здорово👍
Он разработан ML-инженерами Google и пройдет с 11 по 15 ноября. Для участия нужно просто зарегистрироваться: интенсив бесплатный и не подразумевает вступительных испытаний. За пять дней обещают кучу теории и практики, ежедневные задания и семинары, а еще будет комьюнити в Дискорде.
Звучит однозначно здорово
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥97👍19❤7
Media is too big
VIEW IN TELEGRAM
А вот и мнение Лекуна про Нобелевскую премию заехало
Да, жалко в CNN физику не нашли...
"Мне кажется, решение дать нобелевскую премию DL-cпециалистам было принято комитетом под некоторым давлением со стороны общественности. И так как они не могли запихнуть более трех людей в химию, а также решили наградить людей, которые посодействовали фундаментальным идеям, пришлось приплести физику.
И хотя я очень рад, что Хинтону и Хопфилду дали премию, надо понимать, что машина Больцмана и сети Хопфилда, за которые эту премию дали – это бесполезные алгоритмы. Они интересные, да, но их никто не использует. Их приплели лишь чтобы сохранить некоторую связь с физикой."
Да, жалко в CNN физику не нашли...
😁105👍19🔥8💯4❤1
Лучше любого бенчмарка: разработчик сравнил способности старой и новой версии Claude Sonnet 3.5 в Майнкрафте. Прогресс налицо 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥21❤9😁7
Выяснилось, что LLM могут считать, что 9.8 < 9.11, из-за Библии, физики или даже теракта 11 сентября
Исследователи из Transluce – только что анонсированной некоммерческой ИИ лаборатории – создали инструмент Monitor. Это еще одна попытка интерпретировать черный ящик LLM и научиться понимать, как модели обдумывают свои ответы. Основной прикол тут в интерфейсе (см.скрины), такого уровня UX подобные интерпретаторы еще не видели.
Как и предыдущие решения от OpenAI и Anthropic, инструмент основан на архитектуре SAE, то есть на разреженных автоенкодерах, которые распутывают активации LLM и достают из них так называемые интерпретируемые "фичи" (подробнее про то, как устроены такие автоенкодеры писали здесь).
Самое интересное: исследователи прогнали через свою тулзу задачи, на которых LLM традиционно фейлятся, и результаты получились крайне занятные. Например, в той самой задачке, где LLM предлагается сравнить числа 9.8 и 9.11, в ее "мыслях" (в данном случае рассматривают Llama 3.1) внезапно всплывает информация про атаку 11 сентября (9.11) и гравитационную константу (9.8).
Вероятно из-за того, что эти темы появлялись в обучающих данных Llama очень часто, числа 9.8 и 9.11 перестают восприниматься ею как обычные числа: она воспринимает их, как другой вид объектов, путается и несет чепуху.
Но это не все: можно погрузиться глубже и спросить у интерпретатора не просто о том, какие темы вообще активируются при ответе на вопрос, но и о том, какие именно из них заставляют модель сказать "больше". Если это проделать, то получается, что модель начинает думать про Библию. Оказывается, определенные нейроны в этом кластере связаны со стихами из Библии, и выходит, что 9.8 и 9.11 интерпретируются как 9:8 и 9:11 (глава: стих). Это неудивительно: большинство наборов данных для претрейна содержат много копий Библии.
Ученые предположили, что если избавиться от таких тематик, ведущих модель по неверному пути, она все-таки может дать верный ответ. И это заработало! Если с помощью интерпретатора "выключить" вышеперечисленные кластеры нейронов, то модель меняет свое мнение и отвечает правильно: 9.11 меньше 9.8.
Короче, интерпретатор не только занятный в роли песочницы, но и действительно полезный. Исследователи отмечают, что это только прототип для интерфейсов с еще более широкими возможностями. Например, Monitor в его нынешнем виде оставляет построение гипотез пользователю: он позволяет наблюдать, какие идеи лежат в основе вычислений модели, но не объясняет, как модели принимают окончательные решения с помощью этих идей. Агенты-исследователи будущего же смогут не только анализировать решения модели, но и помогать автоматически исправлять галлюцинации.
Исследователи из Transluce – только что анонсированной некоммерческой ИИ лаборатории – создали инструмент Monitor. Это еще одна попытка интерпретировать черный ящик LLM и научиться понимать, как модели обдумывают свои ответы. Основной прикол тут в интерфейсе (см.скрины), такого уровня UX подобные интерпретаторы еще не видели.
Как и предыдущие решения от OpenAI и Anthropic, инструмент основан на архитектуре SAE, то есть на разреженных автоенкодерах, которые распутывают активации LLM и достают из них так называемые интерпретируемые "фичи" (подробнее про то, как устроены такие автоенкодеры писали здесь).
Самое интересное: исследователи прогнали через свою тулзу задачи, на которых LLM традиционно фейлятся, и результаты получились крайне занятные. Например, в той самой задачке, где LLM предлагается сравнить числа 9.8 и 9.11, в ее "мыслях" (в данном случае рассматривают Llama 3.1) внезапно всплывает информация про атаку 11 сентября (9.11) и гравитационную константу (9.8).
Вероятно из-за того, что эти темы появлялись в обучающих данных Llama очень часто, числа 9.8 и 9.11 перестают восприниматься ею как обычные числа: она воспринимает их, как другой вид объектов, путается и несет чепуху.
Но это не все: можно погрузиться глубже и спросить у интерпретатора не просто о том, какие темы вообще активируются при ответе на вопрос, но и о том, какие именно из них заставляют модель сказать "больше". Если это проделать, то получается, что модель начинает думать про Библию. Оказывается, определенные нейроны в этом кластере связаны со стихами из Библии, и выходит, что 9.8 и 9.11 интерпретируются как 9:8 и 9:11 (глава: стих). Это неудивительно: большинство наборов данных для претрейна содержат много копий Библии.
Ученые предположили, что если избавиться от таких тематик, ведущих модель по неверному пути, она все-таки может дать верный ответ. И это заработало! Если с помощью интерпретатора "выключить" вышеперечисленные кластеры нейронов, то модель меняет свое мнение и отвечает правильно: 9.11 меньше 9.8.
Короче, интерпретатор не только занятный в роли песочницы, но и действительно полезный. Исследователи отмечают, что это только прототип для интерфейсов с еще более широкими возможностями. Например, Monitor в его нынешнем виде оставляет построение гипотез пользователю: он позволяет наблюдать, какие идеи лежат в основе вычислений модели, но не объясняет, как модели принимают окончательные решения с помощью этих идей. Агенты-исследователи будущего же смогут не только анализировать решения модели, но и помогать автоматически исправлять галлюцинации.
🔥87👍20❤15✍1
GPT-5 выходит в декабре или все-таки нет?
Вчера The Verge опубликовала статью под названием "OpenAI plans to release its next big AI model by December". Речь шла про Orion: тот самый, о котором слухи начали ходить еще в августе.
Журналисты (тогда и сейчас) написали, что эта модель будет в 100 раз мощнее GPT-4, но будет отлична по структуре от семейства ризонеров o1. А o1, кстати, выступит учителем: нагенерит синтетические данные для обучения Orion и, возможно, заменит человеческие аннотации в RLHF.
Кроме того, Verge сообщили, что моделька будет выпущена сперва на Azure для компаний-партнеров (и это произойдет уже в ноябре), а только потом ее раскатят на широкого пользователя.
Однако Альтман новость довольно грубо опроверг, написав, что это "фейковые новости, вышедшие из-под контроля" и раскритиковав СМИ за «печать случайных фантазий». Тем временем сам он недавно твитил про "зимние созвездия" и про то, что его команда празднует завершение обучения какой-то модели🤨
Вчера The Verge опубликовала статью под названием "OpenAI plans to release its next big AI model by December". Речь шла про Orion: тот самый, о котором слухи начали ходить еще в августе.
Журналисты (тогда и сейчас) написали, что эта модель будет в 100 раз мощнее GPT-4, но будет отлична по структуре от семейства ризонеров o1. А o1, кстати, выступит учителем: нагенерит синтетические данные для обучения Orion и, возможно, заменит человеческие аннотации в RLHF.
Кроме того, Verge сообщили, что моделька будет выпущена сперва на Azure для компаний-партнеров (и это произойдет уже в ноябре), а только потом ее раскатят на широкого пользователя.
Однако Альтман новость довольно грубо опроверг, написав, что это "фейковые новости, вышедшие из-под контроля" и раскритиковав СМИ за «печать случайных фантазий». Тем временем сам он недавно твитил про "зимние созвездия" и про то, что его команда празднует завершение обучения какой-то модели
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🤔17❤9 4😁2💅1
Perplexity сообщили, что они еженедельно обрабатывают более 100М запросов
В месяц это почти 400М, тем временем как в июле спрос за поисковик был почти в два раза меньше: 250M запросов.
Кстати, сейчас компания планирует привлечь около $500 млн при оценке в $8 млрд. Perplexity также обсуждает условия сотрудничества с брендами для спонсируемых ответов поисковика и недавно изменила свою модель подписки.
В месяц это почти 400М, тем временем как в июле спрос за поисковик был почти в два раза меньше: 250M запросов.
Кстати, сейчас компания планирует привлечь около $500 млн при оценке в $8 млрд. Perplexity также обсуждает условия сотрудничества с брендами для спонсируемых ответов поисковика и недавно изменила свою модель подписки.
👍60❤12
Google Deepmind опенсорснули SynthID – инструмент для встраивания и обнаружения водяных знаков в сгенерированном тексте
Идентификация сгенерированного текста вообще больная тема. Классификаторы работают очень плохо, а альтернативных решений мало: разве что вотермарки. Но существующие решения для водяных знаков либо очень тормозят инференс, либо откровенно портят текст, либо на этапе обнаружения скатываются в точность классификаторов. SynthID – попытка это исправить.
Исследователи предлагают встаивать вотермарки дешево, внося несущественные изменения в процедуру выбора следующего токена на этапе, когда вероятности уже посчитаны. Таким образом мы влияем на распределение конечного текста и как бы вносим статистическую "подпись" в генерации (скрин 1, 2). На этапе идентификации можно просто посчитать статистики и по трешхолдам определить, сгенерирован текст или нет.
Гиперпараметры метода можно настраивать: мы можем вносить больше изменений, тогда текст будет меняться сильнее и перформанс может немного падать, но обнаружить вотермарку будет проще. Или наоборот, можем выкрутить температуру, и вотермарки станут более прозрачными (скрин 3).
Самое интересное: Google даже попробовали катнуть неискажающий вариант SynthID в продакшн gemini и доказали, что пользователи в основном не замечают изменений, а вотермарки, тем не менее, можно обнаружить с приемлемой точностью.
Статья в nature | Релиз на HF
Идентификация сгенерированного текста вообще больная тема. Классификаторы работают очень плохо, а альтернативных решений мало: разве что вотермарки. Но существующие решения для водяных знаков либо очень тормозят инференс, либо откровенно портят текст, либо на этапе обнаружения скатываются в точность классификаторов. SynthID – попытка это исправить.
Исследователи предлагают встаивать вотермарки дешево, внося несущественные изменения в процедуру выбора следующего токена на этапе, когда вероятности уже посчитаны. Таким образом мы влияем на распределение конечного текста и как бы вносим статистическую "подпись" в генерации (скрин 1, 2). На этапе идентификации можно просто посчитать статистики и по трешхолдам определить, сгенерирован текст или нет.
Гиперпараметры метода можно настраивать: мы можем вносить больше изменений, тогда текст будет меняться сильнее и перформанс может немного падать, но обнаружить вотермарку будет проще. Или наоборот, можем выкрутить температуру, и вотермарки станут более прозрачными (скрин 3).
Самое интересное: Google даже попробовали катнуть неискажающий вариант SynthID в продакшн gemini и доказали, что пользователи в основном не замечают изменений, а вотермарки, тем не менее, можно обнаружить с приемлемой точностью.
Статья в nature | Релиз на HF
👍35❤8