Veritasium выпустил отличное видео о хайповых новостях в науке и технике: https://youtu.be/czjisEGe5Cw?si=S5WH6YyQfbNkeWWH (Перевод для Древних Русов: https://youtu.be/30kMdZZqK4s?si=hRQ-L4gssITcGszd ).
Как говорится, подписываюсь под каждым словом. Буду теперь скидывать это видео в ответ на вопросы о том, почему я не пишу в своем канале про <очередной объект хайпа на один день>.
Как говорится, подписываюсь под каждым словом. Буду теперь скидывать это видео в ответ на вопросы о том, почему я не пишу в своем канале про <очередной объект хайпа на один день>.
YouTube
The Problem With Science Communication
To kickstart your business or online store with a free trial of Shopify, go to http://shopify.com/veritasium
If you’re looking for a molecular modeling kit, try Snatoms – a kit I invented where the atoms snap together magnetically – https://ve42.co/SnatomsV…
If you’re looking for a molecular modeling kit, try Snatoms – a kit I invented where the atoms snap together magnetically – https://ve42.co/SnatomsV…
❤25👍10🔥4
Мы с коллегами выложили на архив новый препринт:
https://arxiv.org/abs/2311.08349
Он снова посвящен детекции искусственных текстов, но в экстремально сложной постановке.
В качестве примеров здесь рассматриваются тексты из десяти предложений, где первые несколько предложений написаны человеком, а оставшиеся - сгенерированы ML моделью (OPT, CTRL, GPT-2, GPT-3.5, chatGPT etc). Метка же, которую должен угадать алгоритм детекции - это номер предложения, с которого начинается генерация. В некоторых примерах генерации нет вообще (они полностью написаны человеком), и такие примеры также надо распознать правильно.
В общем, задача крайне сложная - из-за короткой длины примеров, необходимости угадывать место начала генерации и разнообразия генераторов и тематик текста (нам ведь нужно, чтобы классификатор ещё и переносился между разными генераторами и темами, то есть был кросс-доменным).
Я её решение начала с того, что установила бейзлайны (дообученная RoBERTa и предсказание самого распространенного класса), а потом стала пытаться применить к ней наш метод из статьи "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" ( https://arxiv.org/abs/2306.04723 ), но прямолинейно "из коробки" он не сработал. В старой-то статье мы работали с бинарной классификацией и длинными текстами, а здесь совсем другая задача.
Я долго старалась, чтобы придумать какой-то новый способ применить концепцию внутренней размерности PH Dimension из старой статьи, и в итоге остановилась на конструкции, названной "PHD + time series". В ней по эмбеддингам текста в RoBERTa проходит скользящее окно, и размерность PHD считается внутри этого окна. Затем к ряду получившихся размерностей применяется SVM с Global Alignment Kernel ( https://dl.acm.org/doi/10.5555/3104482.3104599 ), который, в свою очередь, и предсказывает номер предложения, где начинается генерация. Этот метод действительно дал качество классификации лучше, чем примитивные предсказатели, но все ещё был намного хуже, чем RoBERTa classifier.
Тем временем, соавторы предложили другие способы работать с этой задачей, самые интересные из которых также вошли в статью.
Лучше всего сработал метод, основанный на перплексии, предложенный Таней Гайнцевой ( https://news.1rj.ru/str/dl_stories ). In domain он оказался также слабее Роберты, но в cross domain на некоторых парах доменов оказался существенно лучше. Это интересно, потому что в бинарной постановке задачи (детекция полностью сгенерированных текстов) методы, основанные на прямолинейном применении перплексии обычно хуже, чем RoBERTa classifier. И это ещё раз демонстрирует то, как в разных постановках преимущество могут получать разные методы.
В процессе исследования, мы тщательно проанализировали используемый в статье датасет (он называется RoFT - Real or Fake text) и изучили причины того, почему разные детекторы работают на нем хорошо или плохо в кросс-доменной постановке.
Я уделила особое внимание тому, что предложения, сгенерированные разными моделями и написанные на разные тематики, имеют сильно отличающееся распределение длин. Я добавила в таблицу результатов dummy классификатор, который принимает на вход только длины предложений, не зная об их содержании, и показала, что даже такой классификатор может давать какой-то результат на in domain, при этом будучи совершенно бесполезным на cross-domain. Это наводит на мысль, что и другие классификаторы могут переобучаться на длины предложений и давать какой-то результат на in domain, не понимая, чем на самом деле сгенерированный текст отличается от настоящего.
Соавторы же, в свою очередь, добавили в статью анализ confusion matrices и другие интересные наблюдения.
Препринт является промежуточным результатом, который нужно будет ещё доработать и дополнить путем применения наших методов к другим датасетам (например, https://github.com/mbzuai-nlp/SemEval2024-task8 ).
Тем не менее, я очень рада тому, что удалось довести исследование до текущего этапа, и выражаю благодарность всем соавторам, которые согласились поучаствовать в исследовании.😻
#объяснения_статей #детекция_искусственных_текстов
https://arxiv.org/abs/2311.08349
Он снова посвящен детекции искусственных текстов, но в экстремально сложной постановке.
В качестве примеров здесь рассматриваются тексты из десяти предложений, где первые несколько предложений написаны человеком, а оставшиеся - сгенерированы ML моделью (OPT, CTRL, GPT-2, GPT-3.5, chatGPT etc). Метка же, которую должен угадать алгоритм детекции - это номер предложения, с которого начинается генерация. В некоторых примерах генерации нет вообще (они полностью написаны человеком), и такие примеры также надо распознать правильно.
В общем, задача крайне сложная - из-за короткой длины примеров, необходимости угадывать место начала генерации и разнообразия генераторов и тематик текста (нам ведь нужно, чтобы классификатор ещё и переносился между разными генераторами и темами, то есть был кросс-доменным).
Я её решение начала с того, что установила бейзлайны (дообученная RoBERTa и предсказание самого распространенного класса), а потом стала пытаться применить к ней наш метод из статьи "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" ( https://arxiv.org/abs/2306.04723 ), но прямолинейно "из коробки" он не сработал. В старой-то статье мы работали с бинарной классификацией и длинными текстами, а здесь совсем другая задача.
Я долго старалась, чтобы придумать какой-то новый способ применить концепцию внутренней размерности PH Dimension из старой статьи, и в итоге остановилась на конструкции, названной "PHD + time series". В ней по эмбеддингам текста в RoBERTa проходит скользящее окно, и размерность PHD считается внутри этого окна. Затем к ряду получившихся размерностей применяется SVM с Global Alignment Kernel ( https://dl.acm.org/doi/10.5555/3104482.3104599 ), который, в свою очередь, и предсказывает номер предложения, где начинается генерация. Этот метод действительно дал качество классификации лучше, чем примитивные предсказатели, но все ещё был намного хуже, чем RoBERTa classifier.
Тем временем, соавторы предложили другие способы работать с этой задачей, самые интересные из которых также вошли в статью.
Лучше всего сработал метод, основанный на перплексии, предложенный Таней Гайнцевой ( https://news.1rj.ru/str/dl_stories ). In domain он оказался также слабее Роберты, но в cross domain на некоторых парах доменов оказался существенно лучше. Это интересно, потому что в бинарной постановке задачи (детекция полностью сгенерированных текстов) методы, основанные на прямолинейном применении перплексии обычно хуже, чем RoBERTa classifier. И это ещё раз демонстрирует то, как в разных постановках преимущество могут получать разные методы.
В процессе исследования, мы тщательно проанализировали используемый в статье датасет (он называется RoFT - Real or Fake text) и изучили причины того, почему разные детекторы работают на нем хорошо или плохо в кросс-доменной постановке.
Я уделила особое внимание тому, что предложения, сгенерированные разными моделями и написанные на разные тематики, имеют сильно отличающееся распределение длин. Я добавила в таблицу результатов dummy классификатор, который принимает на вход только длины предложений, не зная об их содержании, и показала, что даже такой классификатор может давать какой-то результат на in domain, при этом будучи совершенно бесполезным на cross-domain. Это наводит на мысль, что и другие классификаторы могут переобучаться на длины предложений и давать какой-то результат на in domain, не понимая, чем на самом деле сгенерированный текст отличается от настоящего.
Соавторы же, в свою очередь, добавили в статью анализ confusion matrices и другие интересные наблюдения.
Препринт является промежуточным результатом, который нужно будет ещё доработать и дополнить путем применения наших методов к другим датасетам (например, https://github.com/mbzuai-nlp/SemEval2024-task8 ).
Тем не менее, я очень рада тому, что удалось довести исследование до текущего этапа, и выражаю благодарность всем соавторам, которые согласились поучаствовать в исследовании.
#объяснения_статей #детекция_искусственных_текстов
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47👍24🔥13
Forwarded from Math and ML stuff
Как нейросети могут быть применимы в математике?
Большие языковые модели (LLM) уже давно показали способность к математическим выводам: доказательство несложных теорем, решение задач с подробным объяснением. Стоит отметить давнюю работу MathBERT для анализа мат.формул, а также Minerva для мат. ризонинга.
Недавно была представлена модель Llemma на 34 млрда параметров: в основе её архитектуры лежит Code Llama, инициализирована весами модели Llama 2 и оригинальным способом дотренирована на расширенном датасете Proof-Pile-2 (55 млрд токенов), который содержит программный код на 17 ЯП из GitHub, статьи из arxiv и OpenWebMath.
В итоге Llemma умеет следующее:
1. Solving Math Problems. Prompt: постановка математической задачи на естественном языке. Ответ: Пошаговое описание решения, записанное на LateX, а затем его имплементация на Python.
2. Informal-to-formal. Prompt: доказательство на естественном языке. Ответ: запись на формальном языке доказательства теорем (proof assistant) Isabelle .
3. Formal-to-formal. Prompt: доказательство на формальном языке Lean. Ответ: разбиение доказательства из prompt в последовательность шагов с подробным описанием на том же языке Lean.
Интригующие результаты в применении инструментов компьютерной алгебры и средств формального доказательства теорем удалось добиться с помощью добавления большого объема данных, связанных с программированием математики, символьными вычислениям итд; авторы назвали эту часть собранного датасета - AlgebraicStack. Утверждается, что Llemmа по точности бьёт все прошлые подходы: Minerva (540 млрд параметров и не open-sourse), Code Llama; при этом исходный код, веса модели и датасет в открытом доступе.
Видео-лекция с подробным описанием работы от Sean Welleck на New Technologies in Mathematics Seminar, в рамках этого семинара затрагивают и много других интересных тем: формальное математическое объяснение успеха механизма Attention или статистическая механика в нейросетках.
пока писал этот текст, вышла статья LEGO-Prover про док-во теорем с помощью LLM.
Большие языковые модели (LLM) уже давно показали способность к математическим выводам: доказательство несложных теорем, решение задач с подробным объяснением. Стоит отметить давнюю работу MathBERT для анализа мат.формул, а также Minerva для мат. ризонинга.
Недавно была представлена модель Llemma на 34 млрда параметров: в основе её архитектуры лежит Code Llama, инициализирована весами модели Llama 2 и оригинальным способом дотренирована на расширенном датасете Proof-Pile-2 (55 млрд токенов), который содержит программный код на 17 ЯП из GitHub, статьи из arxiv и OpenWebMath.
В итоге Llemma умеет следующее:
1. Solving Math Problems. Prompt: постановка математической задачи на естественном языке. Ответ: Пошаговое описание решения, записанное на LateX, а затем его имплементация на Python.
2. Informal-to-formal. Prompt: доказательство на естественном языке. Ответ: запись на формальном языке доказательства теорем (proof assistant) Isabelle .
3. Formal-to-formal. Prompt: доказательство на формальном языке Lean. Ответ: разбиение доказательства из prompt в последовательность шагов с подробным описанием на том же языке Lean.
Интригующие результаты в применении инструментов компьютерной алгебры и средств формального доказательства теорем удалось добиться с помощью добавления большого объема данных, связанных с программированием математики, символьными вычислениям итд; авторы назвали эту часть собранного датасета - AlgebraicStack. Утверждается, что Llemmа по точности бьёт все прошлые подходы: Minerva (540 млрд параметров и не open-sourse), Code Llama; при этом исходный код, веса модели и датасет в открытом доступе.
Видео-лекция с подробным описанием работы от Sean Welleck на New Technologies in Mathematics Seminar, в рамках этого семинара затрагивают и много других интересных тем: формальное математическое объяснение успеха механизма Attention или статистическая механика в нейросетках.
пока писал этот текст, вышла статья LEGO-Prover про док-во теорем с помощью LLM.
👍23🔥13
Forwarded from RnD CV Team (Karina Kvanchiani)
Русский жестовый язык: первое место в бенчмарке американского жестового языка 🏆
Наш датасет русского жестового языка (РЖЯ) Slovo послужил основой для распознавания не только РЖЯ, но и американского жестового языка.
Мы заняли первое место 💯 по точности Top-1 Accuracy на бенчмарке американского жестового языка WLASL-2000 с метрикой 0.633 с помощью нашей модели SignFlow-A.
Мы уже выложили модели в открытый доступ.
Следите за новостями, на этом мы не останавливаемся. 👋
#news
Наш датасет русского жестового языка (РЖЯ) Slovo послужил основой для распознавания не только РЖЯ, но и американского жестового языка.
Мы заняли первое место 💯 по точности Top-1 Accuracy на бенчмарке американского жестового языка WLASL-2000 с метрикой 0.633 с помощью нашей модели SignFlow-A.
Мы уже выложили модели в открытый доступ.
Следите за новостями, на этом мы не останавливаемся. 👋
#news
Хабр
Русский жестовый язык: первое место в американском бенчмарке
Нейросети для распознавания жестового языка, созданные командой компьютерного зрения RnD CV в SberDevices научились лучше всех в мире распознавать американский жестовый язык! Такой результат был...
👏46👍2🔥1
Не прошло и полугода, как я выложила на Хабр компиляцию своих pdf-ок "Путь к познанию мистерий обучения машин без траты денежных ресурсов" в формате статьи-гайда:
https://habr.com/ru/articles/774844/
(с чуть менее экстравагантным названием).
Пожалуйста, оставляйте отзывы и комментарии о том, что нравится/не нравится под статьей.
Старые pdf-ки, на которых основан гайд, можно посмотреть здесь: https://news.1rj.ru/str/tech_priestess/588 , https://news.1rj.ru/str/tech_priestess/700 , https://news.1rj.ru/str/tech_priestess/838 .
P.S. Буду благодарна, если подкинете немного кармы, поскольку с момента последнего посещения Хабра мне кто-то её слил (происки УИИ? 😅).
#учебные_материалы
https://habr.com/ru/articles/774844/
(с чуть менее экстравагантным названием).
Пожалуйста, оставляйте отзывы и комментарии о том, что нравится/не нравится под статьей.
Старые pdf-ки, на которых основан гайд, можно посмотреть здесь: https://news.1rj.ru/str/tech_priestess/588 , https://news.1rj.ru/str/tech_priestess/700 , https://news.1rj.ru/str/tech_priestess/838 .
P.S. Буду благодарна, если подкинете немного кармы, поскольку с момента последнего посещения Хабра мне кто-то её слил (происки УИИ? 😅).
#учебные_материалы
Хабр
Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить
Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы , и, наконец, выполняю свое...
❤141👍26🔥19😐1
Forwarded from Big Ledovsky | блог DS лида
Написал гайд по git'у
Недавно понял, что с момента, когда я устроился разработчиком на первую полноценную работу прошло более 10 лет. Это было великолепное время: в компании было 7 человек, мы работали в заброшенном особняке в центре, а наш босс Володя выкладывал зарплату в открытую налом каждому на стол..🤦♂
С того момента я писал код с переменной активностью, но некоторые вещи записались у меня на подкорку. Например, работа с гитом - системой контроля версий кода.
При этом я периодически вижу, что работа с гитом вызывает людей стресс, особенно у ds-ов, а им зачастую помимо исследований нужно писать продовый код. Поэтому я решил собрать свои мысли вместе и оформить их в виде гайда, который буду со временем дорабатывать.
Если гайд окажется вам полезным, буду благодарен за репосты и звездочку на гитхабе.
https://github.com/ledovsky/effective-git
Недавно понял, что с момента, когда я устроился разработчиком на первую полноценную работу прошло более 10 лет. Это было великолепное время: в компании было 7 человек, мы работали в заброшенном особняке в центре, а наш босс Володя выкладывал зарплату в открытую налом каждому на стол..
С того момента я писал код с переменной активностью, но некоторые вещи записались у меня на подкорку. Например, работа с гитом - системой контроля версий кода.
При этом я периодически вижу, что работа с гитом вызывает людей стресс, особенно у ds-ов, а им зачастую помимо исследований нужно писать продовый код. Поэтому я решил собрать свои мысли вместе и оформить их в виде гайда, который буду со временем дорабатывать.
Если гайд окажется вам полезным, буду благодарен за репосты и звездочку на гитхабе.
https://github.com/ledovsky/effective-git
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - ledovsky/effective-git: Git Tips and Ticks for Effective Developers
Git Tips and Ticks for Effective Developers. Contribute to ledovsky/effective-git development by creating an account on GitHub.
❤47👍8🔥7🥱4👏2😁1🤩1🤡1🤨1
Под предыдущим постом читатель поделился ещё одним учебным материалом по git - первый, сокращённый вариант, рассматривающий как исправлять конкретные ошибки, оформлен в виде обычной веб страницы (первая ссылка), а второй, более полный, включающий в себя базовые знания - в виде комиксов (вторая ссылка):
Однако, у варианта в виде комикса есть существенный недостаток: он ПЛАТНЫЙ! 😫🔫
Хорошо, что есть копия этого комикса про git и других, про другие технологии, здесь: https://github.com/nendonerd/wizardzines БЕСПЛАТНО... 😌
#учебные_материалы
У автора гайда на гитхабе есть ссылочка на прикольный сайт https://ohshitgit.com/ О том как откатываться назад при различных косяках с коммитами. Это название из комикса Джулии Эванс. Она рисует коротенькие комиксы-объснялки на самые разные технологии и как это работает, фишкой которых является наглядность. Раньше, кстати, она чаще выкладывала кусочки из комиксов.
https://wizardzines.com/zines/oh-shit-git/
Популярна в соц сети X www.x.com/b0rk.
Однако, у варианта в виде комикса есть существенный недостаток: он ПЛАТНЫЙ! 😫🔫
Хорошо, что есть копия этого комикса про git и других, про другие технологии, здесь: https://github.com/nendonerd/wizardzines БЕСПЛАТНО... 😌
#учебные_материалы
wizard zines
wizard zines: Oh shit, git!
👍34🔥2
Интересный выпуск подкаста "Сережа и микрофон" послушала вчера по дороге на работу:
Ссылка на YouTube - https://youtu.be/JhYNeV-Zxoc?si=gQbjoMzJLG6GjRjl
Ссылка на Яндекс музыке - https://music.yandex.ru/album/9294859/track/113655556
В целом, подкаст посвящен обсуждению разных тем в зависимости от приглашенного гостя. В этот раз ведущий пригласил специалиста по машинному обучению (у гостя, кстати, есть и свой канал, где можно узнать про него больше - https://news.1rj.ru/str/progulka ) и обсудил с ним потенциальные опасности искусственного интеллекта.
Как мне кажется, в этом выпуске было высказано много довольно здравых мыслей, без паникёрства. Я, конечно, не такой ярый технооптимист, как эти парни, но процентов на 90 согласна с высказанными ими идеями. Особенно меня позабавила аналогия глубокого обучения с алхимией на 59:50 .
#подкасты
Ссылка на YouTube - https://youtu.be/JhYNeV-Zxoc?si=gQbjoMzJLG6GjRjl
Ссылка на Яндекс музыке - https://music.yandex.ru/album/9294859/track/113655556
В целом, подкаст посвящен обсуждению разных тем в зависимости от приглашенного гостя. В этот раз ведущий пригласил специалиста по машинному обучению (у гостя, кстати, есть и свой канал, где можно узнать про него больше - https://news.1rj.ru/str/progulka ) и обсудил с ним потенциальные опасности искусственного интеллекта.
Как мне кажется, в этом выпуске было высказано много довольно здравых мыслей, без паникёрства. Я, конечно, не такой ярый технооптимист, как эти парни, но процентов на 90 согласна с высказанными ими идеями. Особенно меня позабавила аналогия глубокого обучения с алхимией на 59:50 .
#подкасты
YouTube
Мрачные предсказания Маска | УЧЕНЫЙ ИВАН ЯМЩИКОВ (Искусственный интеллект)
Производство: БИГ НАМБРЗ
телеграм канал Сергея Мезенцева - https://news.1rj.ru/str/simbackstage
Экосистема для бизнеса Контур https://bit.ly/43bKxkV. Работает на работе.
Третий выпуск с исследователем искусственного интеллекта Иваном Ямщиковым. Встретились (да, по…
телеграм канал Сергея Мезенцева - https://news.1rj.ru/str/simbackstage
Экосистема для бизнеса Контур https://bit.ly/43bKxkV. Работает на работе.
Третий выпуск с исследователем искусственного интеллекта Иваном Ямщиковым. Встретились (да, по…
👍17👎1🔥1
Собираюсь сегодня посмотреть трансляцию вот этой конференции. Где-то между 16:15 и 18:20 должна выступать моя тимлид с докладом "Топологический анализ данных для речевых трансформеров" (наша работа на эту тему, рассказанная на INTERSPEECH: https://arxiv.org/abs/2211.17223 ).
Потом планирую зайти сюда, посмотреть на доклад "Предсказание следующих действий пользователя в рекомендательных системах с использованием гиперболической геометрии", звучит интригующе 🧐
Тем временем на главном треке будут рассказывать про разные модели Сбера - Kandinsky, Giga Chat и другие, тоже многим может быть интересно (кто раньше не видел эти доклады).
Всё это смотрится бесплатно в разделе "Трансляция мероприятия".
#конференции
Потом планирую зайти сюда, посмотреть на доклад "Предсказание следующих действий пользователя в рекомендательных системах с использованием гиперболической геометрии", звучит интригующе 🧐
Тем временем на главном треке будут рассказывать про разные модели Сбера - Kandinsky, Giga Chat и другие, тоже многим может быть интересно (кто раньше не видел эти доклады).
Всё это смотрится бесплатно в разделе "Трансляция мероприятия".
#конференции
❤28👍9🔥5🥰4🤡1
У кого есть это устройство, поставьте класс и напишите, какими функциями вы чаще всего пользуетесь. Посмотрим сколько нас. ⌨️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35😱16🥰7🔥5😍1
Forwarded from Записки Ппилифа (Ppilif)
Про YAC/e
Произошло интересное. Я по мотивам прошлого семестра написал небольшую заметку про то, как студенты использовали языковые модели в курсах по программированию и как это их немножко обесценило.
Её прочитали ребята из Яндекс.Лицея и позвали поговоорить про нейросети на Yet Another Conference (YAC). Раньше YAC был ежегодной конфой Яндекса с презентацией разных громких новинок. В последние годы формат поменялся. Ребята стали дропать в день конфы фильмы про Яндекс, сделанные в разных форматах.
В офлайн части, в виде конфы, остался только кусочек про образование. Туда, как и раньше, зовут кучу разных спикеров и они что-то рассказывают. Эта частичка называется YAC/e (yet another conference on education). Туда меня и позвали.
Предполагалось, что у нас с Сашей Паволоцким (академрук школьных программ Яндекса) будут дебаты. Я, по задумке, должен был защищать нейронки, а Саша атаковать. Довольно быстро выяснилось, что у нас близкие позиции и дебаты превратились в довольно милый разговор про судьбы образования. Посмотреть можно тут.
Я впервые участвовал в конфе, где всё так серьёзно. Несколько студий, дофига аппаратуры и даже гримеры. На меня впервые в жизни накладывали грим. Девушки-гримеры просили познакомить с кем-нибудь из команды кинопоиска, снимающей сериалы 🙃🙃🙃
Я просто опубликовал в канале пост и запустил этим цепочку событий, которая привела меня на конфу. Жизнь так прикольно устроена...
Произошло интересное. Я по мотивам прошлого семестра написал небольшую заметку про то, как студенты использовали языковые модели в курсах по программированию и как это их немножко обесценило.
Её прочитали ребята из Яндекс.Лицея и позвали поговоорить про нейросети на Yet Another Conference (YAC). Раньше YAC был ежегодной конфой Яндекса с презентацией разных громких новинок. В последние годы формат поменялся. Ребята стали дропать в день конфы фильмы про Яндекс, сделанные в разных форматах.
В офлайн части, в виде конфы, остался только кусочек про образование. Туда, как и раньше, зовут кучу разных спикеров и они что-то рассказывают. Эта частичка называется YAC/e (yet another conference on education). Туда меня и позвали.
Предполагалось, что у нас с Сашей Паволоцким (академрук школьных программ Яндекса) будут дебаты. Я, по задумке, должен был защищать нейронки, а Саша атаковать. Довольно быстро выяснилось, что у нас близкие позиции и дебаты превратились в довольно милый разговор про судьбы образования. Посмотреть можно тут.
Я впервые участвовал в конфе, где всё так серьёзно. Несколько студий, дофига аппаратуры и даже гримеры. На меня впервые в жизни накладывали грим. Девушки-гримеры просили познакомить с кем-нибудь из команды кинопоиска, снимающей сериалы 🙃🙃🙃
Я просто опубликовал в канале пост и запустил этим цепочку событий, которая привела меня на конфу. Жизнь так прикольно устроена...
👍31
С запозданием, но все же делюсь с вами докладом про Parameter-Efficient Fine Tuning (PEFT):
https://www.youtube.com/watch?v=Fg7Ugyboopg
Доклад сделан по двум статьям автора: "Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning" ( https://arxiv.org/abs/2303.15647 ) и "Stack More Layers Differently: High-Rank Training Through Low-Rank Updates" ( https://arxiv.org/abs/2307.05695 ). Также у автора есть канал https://news.1rj.ru/str/dlinnlp , где он пишет как про свои достижения, так и в целом про интересные статьи, а также новости Deep Learning.
-
Тема Parameter-Efficient Fine Tuning не является моим прямым научным интересом, но иногда я все же читаю связанные с ней статьи постольку, поскольку это: а) связано с анализом размерности пространства эмбеддингов; б) имеет большое прикладное значение. В частности, на эту тему уже было два поста в канале: https://news.1rj.ru/str/tech_priestess/131 , https://news.1rj.ru/str/tech_priestess/781 .
Ну, а данный доклад понравился мне по двум причинам:
1. В нем дан хороший обзор существующих методов PEFT (первая статья и первая половина доклада), потенциально полезный всем интересующимся этой темой.
2. В нем рассказывается про новый метод, называемый ReLORA (вторая статья и вторая половина доклада). ReLORA - это такой своеобразный способ приспособить концепцию LoRA для предобучения (а не только для дообучения, как это делалось раньше).
Для того, чтобы эта идея реально заработала, авторам пришлось применить множество инженерных доработок. В результате метод выглядит примерно так:
- В течение первого этапа нужно сделать какое-то количество шагов полноценного предобучения (т.н. warmup);
- В течение следующего этапа продолжить предобучение с помощью LoRA;
- Слить обученную LoRA с весами основной модели, сделать reset оптимизатора, поменять learning rate, заново инициализировать веса LoRA;
- Опять продолжить предобучение с помощью LoRA;
- Далее этапы с LoRA повторяются несколько раз по одному и тому же принципу, в то время, как learning rate в среднем постепенно затухает (см. слайды, прикрепленные к посту ниже).
В итоге, можно добиться ускорения предобучения в несколько раз, сохраняя cross-entropy loss / perplexity результирующей модели близким к таковому у модели, предобученной полноценным способом.
Я думаю, что ReLORA имеет хорошие перспективы. Будет очень интересно посмотреть на дальнейшее развитие этого метода или на новые эффективные методы предобучения, которые он вдохновит.
#объяснения_статей
https://www.youtube.com/watch?v=Fg7Ugyboopg
Доклад сделан по двум статьям автора: "Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning" ( https://arxiv.org/abs/2303.15647 ) и "Stack More Layers Differently: High-Rank Training Through Low-Rank Updates" ( https://arxiv.org/abs/2307.05695 ). Также у автора есть канал https://news.1rj.ru/str/dlinnlp , где он пишет как про свои достижения, так и в целом про интересные статьи, а также новости Deep Learning.
-
Тема Parameter-Efficient Fine Tuning не является моим прямым научным интересом, но иногда я все же читаю связанные с ней статьи постольку, поскольку это: а) связано с анализом размерности пространства эмбеддингов; б) имеет большое прикладное значение. В частности, на эту тему уже было два поста в канале: https://news.1rj.ru/str/tech_priestess/131 , https://news.1rj.ru/str/tech_priestess/781 .
Ну, а данный доклад понравился мне по двум причинам:
1. В нем дан хороший обзор существующих методов PEFT (первая статья и первая половина доклада), потенциально полезный всем интересующимся этой темой.
2. В нем рассказывается про новый метод, называемый ReLORA (вторая статья и вторая половина доклада). ReLORA - это такой своеобразный способ приспособить концепцию LoRA для предобучения (а не только для дообучения, как это делалось раньше).
Для того, чтобы эта идея реально заработала, авторам пришлось применить множество инженерных доработок. В результате метод выглядит примерно так:
- В течение первого этапа нужно сделать какое-то количество шагов полноценного предобучения (т.н. warmup);
- В течение следующего этапа продолжить предобучение с помощью LoRA;
- Слить обученную LoRA с весами основной модели, сделать reset оптимизатора, поменять learning rate, заново инициализировать веса LoRA;
- Опять продолжить предобучение с помощью LoRA;
- Далее этапы с LoRA повторяются несколько раз по одному и тому же принципу, в то время, как learning rate в среднем постепенно затухает (см. слайды, прикрепленные к посту ниже).
В итоге, можно добиться ускорения предобучения в несколько раз, сохраняя cross-entropy loss / perplexity результирующей модели близким к таковому у модели, предобученной полноценным способом.
Я думаю, что ReLORA имеет хорошие перспективы. Будет очень интересно посмотреть на дальнейшее развитие этого метода или на новые эффективные методы предобучения, которые он вдохновит.
#объяснения_статей
YouTube
Parameter-Efficient Fine-Tuning больших языковых моделей сейчас и завтра. Влад Лялин - UMass Lowell
Мы живём в мире, где модели в 1 миллиард или даже 10 миллиардов параметров уже не считаются большими — вы буквально можете запустить их на вашем телефоне. Но тренировать или даже файтнюнить эти модели всё ещё может быть сложно и дорого. Методы Parameter-Efficient…
❤18👍8
👍9❤1