🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨🔬 Михаил Нефедов (Сбер) "NLP модели без токенизации"
⌚️ Четверг 8 июля, 19.00 по Москве
В докладе я расскажу о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 Михаил Нефедов (Сбер) "NLP модели без токенизации"
⌚️ Четверг 8 июля, 19.00 по Москве
В докладе я расскажу о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Telegram
Sberloga in Data
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
По всем вопросам обращаться @SberlogaHelperBot
Forwarded from исследовано (Katya Artemova)
Всем привет!
Приглашаем вас на онлайн-семинар НУЛ ММВП "Матричные и тензорные разложения в задачах обработки естественного языка", который состоится 15 июля 2021 года в 19.00.
О докладчике: Гринчук Алексей Валерьевич (https://scholar.google.com/citations?user=Z8GCLksAAAAJ&hl=en&oi=ao) Окончил бакалавриат МФТИ в 2015 году. В 2017 окончил магистратуру МФТИ и Сколтеха. С 2017 является аспирантом МФТИ и занимается применением матричных и тензорных разложений к различным задачам обработки естественного языка (NLP) под руководством И.В. Оселедца. С 2020 года работает ведущим инженером в компании NVIDIA, занимается распознаванием речи и машинным переводом.
Аннотация: В настоящей работе предлагаются методы решения различных задач в области обработки естественного языка при помощи матричных и тензорных разложений. Предложен метод построения векторных представлений слов на основе Римановой оптимизации в пространстве матриц малого ранга. Предложена математическая модель векторных представлений слов на основе разложения тензорного поезда, которая требует меньше параметров, чем классическое представление в виде плотной матрицы. Предложено обобщение тензорных нейронных сетей, которое позволяет анализировать рекуррентные и полносвязные сети с различными нелинейностями между слоями. Проведён теоретический анализ обобщающей способности и выразительной силы обобщённых рекуррентных тензорных сетей с нелинейностью типа ReLU.
Для участия в семинаре необходимо зарегистрироваться до 16.00 15 июля 2021 г.
https://cs.hse.ru/ai/computational-pragmatics/announcements/484649607.html
Приглашаем вас на онлайн-семинар НУЛ ММВП "Матричные и тензорные разложения в задачах обработки естественного языка", который состоится 15 июля 2021 года в 19.00.
О докладчике: Гринчук Алексей Валерьевич (https://scholar.google.com/citations?user=Z8GCLksAAAAJ&hl=en&oi=ao) Окончил бакалавриат МФТИ в 2015 году. В 2017 окончил магистратуру МФТИ и Сколтеха. С 2017 является аспирантом МФТИ и занимается применением матричных и тензорных разложений к различным задачам обработки естественного языка (NLP) под руководством И.В. Оселедца. С 2020 года работает ведущим инженером в компании NVIDIA, занимается распознаванием речи и машинным переводом.
Аннотация: В настоящей работе предлагаются методы решения различных задач в области обработки естественного языка при помощи матричных и тензорных разложений. Предложен метод построения векторных представлений слов на основе Римановой оптимизации в пространстве матриц малого ранга. Предложена математическая модель векторных представлений слов на основе разложения тензорного поезда, которая требует меньше параметров, чем классическое представление в виде плотной матрицы. Предложено обобщение тензорных нейронных сетей, которое позволяет анализировать рекуррентные и полносвязные сети с различными нелинейностями между слоями. Проведён теоретический анализ обобщающей способности и выразительной силы обобщённых рекуррентных тензорных сетей с нелинейностью типа ReLU.
Для участия в семинаре необходимо зарегистрироваться до 16.00 15 июля 2021 г.
https://cs.hse.ru/ai/computational-pragmatics/announcements/484649607.html
Google
Oleksii Hrinchuk
NVIDIA - Cited by 1,083 - Natural language processing - Automatic Speech Recognition - Transformers
🚀 @SBERLOGA онлайн доклад по биоинформатике и граф-мл
👨🔬 Леонид Урошлев (Институт Общей Генетики РАН) "Геномные графы, их применение для хранения последовательностей и алгоритмы их обработки"
⌚️ Пятница 16 июля, 17.00 по Москве
Геномные графы, их устройство и применимость. Особое внимание будет уделено графам вариаций, их применению в анализе популяционной изменчивости, а также алгоритмам индексации графов.
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 Леонид Урошлев (Институт Общей Генетики РАН) "Геномные графы, их применение для хранения последовательностей и алгоритмы их обработки"
⌚️ Пятница 16 июля, 17.00 по Москве
Геномные графы, их устройство и применимость. Особое внимание будет уделено графам вариаций, их применению в анализе популяционной изменчивости, а также алгоритмам индексации графов.
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Telegram
(sci)Berloga Bioinformatics, Biology, etc. Club
Биоинформатика, дата сайнс, биология. Основное правило - вежливое и уважительное общение.
@sberlogabig - основной канал
@sberlogasci математика, физика, ДС
@sberloga_discussion за жизнь
Доклады:
https://www.youtube.com/c/SciBerloga
@sberlogabig - основной канал
@sberlogasci математика, физика, ДС
@sberloga_discussion за жизнь
Доклады:
https://www.youtube.com/c/SciBerloga
Ребята, выкладываю видео прошедших семинаров
NLP модели без токенизации
Михаил Нефедов (Сбер)
https://youtu.be/POvjBt7D1nM
В докладе Михаил рассказал о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.
📝 Материалы:
https://drive.google.com/file/d/1CbZZe74gYm1tpr8pMWdvaBj2iUGke578/view?usp=sharing
Предсказания взаимодействий молекул и белков с помощью графовых нейросетей
Илья Сенаторов (Helmholtz Institute)
https://youtu.be/5MFvmPIvQLk
Предсказание взаимодействия между белком и молекулой - нетривиальная задача, которая активно решается последние 5 лет. Множество подходов комбинируют машинное обучение с теорией графов для решение этой задачи. Однако датасеты, используемые для сравнения разных моделей сильно отличаются от датасетов которые встречаются в реальной жизни - они гораздо более полные и сбалансированые. В этой лекции я расскажу о проблемах, которые встречаются при попытке применить модели, натренированые на стандартных датасетах KIBA и Davis и способах их решения - weighted loss, biologically relevant protein graph augmentation и graph-level pre-training.
📝 Материалы:
https://drive.google.com/file/d/1pAGsHLAU4id2CD-9nYMnsdNWMxZmFECP/view?usp=sharing
📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий: https://news.1rj.ru/str/sberloga
🗨 Обсудить доклады можно в нашем чатике https://news.1rj.ru/str/sberlogadataclub
@sberloga
NLP модели без токенизации
Михаил Нефедов (Сбер)
https://youtu.be/POvjBt7D1nM
В докладе Михаил рассказал о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях. Отказ от токенизации упрощает пайплайн предобработки, значительно сокращает размеры входных и выходных слоев, а также делает модель более устойчивой к искажениям текста. Перфоманс полученных модулей не уступает, а иногда и превосходит аналогичные модели с токенизацией. Недостатком такого подхода является значительное увеличение длины последовательностей, которое приводит к снижению скорости обучения и инференса.
📝 Материалы:
https://drive.google.com/file/d/1CbZZe74gYm1tpr8pMWdvaBj2iUGke578/view?usp=sharing
Предсказания взаимодействий молекул и белков с помощью графовых нейросетей
Илья Сенаторов (Helmholtz Institute)
https://youtu.be/5MFvmPIvQLk
Предсказание взаимодействия между белком и молекулой - нетривиальная задача, которая активно решается последние 5 лет. Множество подходов комбинируют машинное обучение с теорией графов для решение этой задачи. Однако датасеты, используемые для сравнения разных моделей сильно отличаются от датасетов которые встречаются в реальной жизни - они гораздо более полные и сбалансированые. В этой лекции я расскажу о проблемах, которые встречаются при попытке применить модели, натренированые на стандартных датасетах KIBA и Davis и способах их решения - weighted loss, biologically relevant protein graph augmentation и graph-level pre-training.
📝 Материалы:
https://drive.google.com/file/d/1pAGsHLAU4id2CD-9nYMnsdNWMxZmFECP/view?usp=sharing
📢 Подписывайся на наше сообщество в telegram, чтобы быть в курсе мероприятий: https://news.1rj.ru/str/sberloga
🗨 Обсудить доклады можно в нашем чатике https://news.1rj.ru/str/sberlogadataclub
@sberloga
YouTube
NLP модели без токенизации - Михаил Нефедов (Сбер)
NLP модели без токенизации - Михаил Нефедов (Сбер)
В докладе я расскажу о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях.…
В докладе я расскажу о недавней статье от Google Research (https://arxiv.org/abs/2105.13626), в которой показывается, что трансформеры можно успешно обучать без какой-либо токенизации, на байтовых последовательностях.…
Записывайтесь добровольцами на разбор АльфФолд2 от Гугл ДипМайнд https://news.1rj.ru/str/sberlogabio/7357
Подробней тут: https://news.1rj.ru/str/sberloga/95 , присоединяйтесь к группе https://news.1rj.ru/str/sberlogabio для координации усилий
Подробней тут: https://news.1rj.ru/str/sberloga/95 , присоединяйтесь к группе https://news.1rj.ru/str/sberlogabio для координации усилий
Революционное достижение от Гугл ДипМайнд (анонс осень 2020) - АльфаФолд2 - очень точное предсказание трехмерной структуры белков (то есть координат в трехмерном пространстве атомов белка), зная только последовательность аминокислот белка (то есть одномерную структуру).
На днях (15 июля) Дипмайнд выложил более подробное описание своей работы, а незадолго до этого группа независимых исследователей выложило менее совершенное,
но и менее ресурсоемкое решение - РозеттаФолд.
Давайте попробуем разобраться в этих работах - присоединяйтесь к 70 "добровольцам" на разбор этих работы в https://news.1rj.ru/str/sberlogabio/7357 .
Статья Альфафолд2: https://www.nature.com/articles/s41586-021-03819-2
Модель: https://github.com/deepmind/alphafold
Замечательные посты Григория Сапунова, с кратким описанием достижений:
РозеттаФолд: https://news.1rj.ru/str/gonzo_ML/642
АльфаФолд2: https://news.1rj.ru/str/gonzo_ML/649
Каггл можно использовать для сбора материалов (данных, скриптов, ссылок, обсуждений) по этой активности:
https://www.kaggle.com/alexandervc/towards-understanding-alphafold2-and-rosettafold
На днях (15 июля) Дипмайнд выложил более подробное описание своей работы, а незадолго до этого группа независимых исследователей выложило менее совершенное,
но и менее ресурсоемкое решение - РозеттаФолд.
Давайте попробуем разобраться в этих работах - присоединяйтесь к 70 "добровольцам" на разбор этих работы в https://news.1rj.ru/str/sberlogabio/7357 .
Статья Альфафолд2: https://www.nature.com/articles/s41586-021-03819-2
Модель: https://github.com/deepmind/alphafold
Замечательные посты Григория Сапунова, с кратким описанием достижений:
РозеттаФолд: https://news.1rj.ru/str/gonzo_ML/642
АльфаФолд2: https://news.1rj.ru/str/gonzo_ML/649
Каггл можно использовать для сбора материалов (данных, скриптов, ссылок, обсуждений) по этой активности:
https://www.kaggle.com/alexandervc/towards-understanding-alphafold2-and-rosettafold
Telegram
Alexander C in Sberloga Bioinformatics Club
Запись добровольцев на разбор АльфаФолда (революционного подхода от гугл ДимМайнд по предсказнию положений атомов белков по последовательности аминокислот).
Подробности в чате @sberlogabio
Несколько вариантов выбираем.
Готов повникать/рассказать / Готов…
Подробности в чате @sberlogabio
Несколько вариантов выбираем.
Готов повникать/рассказать / Готов…
🚀 @SBERLOGA онлайн доклад по дс&граф-мл
👨🔬 Александр Кореков, Данил Сметанев (Сбер) "Подход и кейсы process mining"
⌚️ Вторник 20 июля, 19.00 по Москве
Process Mining - это относительно молодая область знаний. Она сочетает в себе подходы для анализа как операционных процессов компании, так и клиентских путей (customer journey) в любый фронтальных и бэкендовых системах, а в качестве источника данных обычно используют event logs разной степени детализации. В нашем рассказе хотим познакомить вас с основными бизнес-задачами в process mining, поговорить о подходах и проблематике при построении аналитики по event logs, посвятить в кейсы разбора клиентских путей, а также рассказать о нашей новой библиотеке sberPM: https://github.com/SberProcessMining/Sber_Process_Mining
Доклад будет перекликаться с нашей статьей https://habr.com/ru/company/sberbank/blog/565476/
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 Александр Кореков, Данил Сметанев (Сбер) "Подход и кейсы process mining"
⌚️ Вторник 20 июля, 19.00 по Москве
Process Mining - это относительно молодая область знаний. Она сочетает в себе подходы для анализа как операционных процессов компании, так и клиентских путей (customer journey) в любый фронтальных и бэкендовых системах, а в качестве источника данных обычно используют event logs разной степени детализации. В нашем рассказе хотим познакомить вас с основными бизнес-задачами в process mining, поговорить о подходах и проблематике при построении аналитики по event logs, посвятить в кейсы разбора клиентских путей, а также рассказать о нашей новой библиотеке sberPM: https://github.com/SberProcessMining/Sber_Process_Mining
Доклад будет перекликаться с нашей статьей https://habr.com/ru/company/sberbank/blog/565476/
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨🔬 Eгор Плотников (Сбер) "Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст."
⌚️ Четверг 22 июля, 19.00 по Москве
За последние несколько лет генеративные модели в NLP сделали большой шаг вперед. Сейчас языковые модели могут без проблем порождать связный, релевантный текст либо с нуля, либо путем завершения отрывка, начатого пользователем. Однако в стандартной постановке задачи человек имеет достаточно слабый контроль над итоговым результатом генерации. Например, было бы неплохо уметь задавать тему, которой должен соответствовать текст, эмоциональную окраску, стиль повествования и т.д. В данном докладе будет рассмотрено несколько статей, так или иначе решающих эту проблему:
https://arxiv.org/abs/1909.05858 "CTRL: A Conditional Transformer Language Model for Controllable Generation"
https://arxiv.org/abs/1912.02164 "Plug and Play Language Models: A Simple Approach to Controlled Text Generation"
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 Eгор Плотников (Сбер) "Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст."
⌚️ Четверг 22 июля, 19.00 по Москве
За последние несколько лет генеративные модели в NLP сделали большой шаг вперед. Сейчас языковые модели могут без проблем порождать связный, релевантный текст либо с нуля, либо путем завершения отрывка, начатого пользователем. Однако в стандартной постановке задачи человек имеет достаточно слабый контроль над итоговым результатом генерации. Например, было бы неплохо уметь задавать тему, которой должен соответствовать текст, эмоциональную окраску, стиль повествования и т.д. В данном докладе будет рассмотрено несколько статей, так или иначе решающих эту проблему:
https://arxiv.org/abs/1909.05858 "CTRL: A Conditional Transformer Language Model for Controllable Generation"
https://arxiv.org/abs/1912.02164 "Plug and Play Language Models: A Simple Approach to Controlled Text Generation"
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Telegram
Sberloga in Data
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
По всем вопросам обращаться @SberlogaHelperBot
🚀 @SBERLOGA начинает серию онлайн докладов посвященных Альфафолд (революционному достижению от Гугл ДипМайнд на стыке датасайнс и биологии)
👨🔬 проф. О. Калинина (Helmholtz Institute), к.б.н А. Залевский (ИБХ РАН): "Предсказание трехмерной пространственной структуры белков: классические подходы и методы глубокого обучения"
⌚️ Пятница 23 июля, 18.00 по Москве
AlphaFold – программа для предсказания пространственной структуры белков с помощью глубоких нейронных сетей, созданная компанией DeepMind, которая уже отметилась значительными успехами в создании программ, играющих в шахматы и го. AlphaFold наделала много шума осенью 2020 года, когда ей удалось с большим отрывом выиграть соревнования по предсказанию трехмерных структур белков CASP. 15 июля этого года была опубликована статья в Nature с описанием метода (https://www.nature.com/articles/s41586-021-03819-2) и код на GitHub (https://github.com/deepmind/alphafold). Прежде чем разбираться в деталях реализации нейросети, мы хотим рассказать про классические методы предсказания пространственной структуры и историю CASP. Также мы обсудим особенности локального развертывания AlphaFold и покажем результаты первых бенчмарков на собственных научных задачах.
Подробнее о докладчиках:
Ольга Калинина, профессор drug bioinformatics, Helmholtz Institute for Pharmaceutical Research Saarland and Saarland University (https://www.helmholtz-hips.de/en/research/people/person/prof-dr-olga-kalinina/), Артур Залевский, кандидат биологических наук, младший научный сотрудник, Институт биоорганической химии РАН (http://www.ibch.ru/structure/groups/lbaccb/1510)
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 проф. О. Калинина (Helmholtz Institute), к.б.н А. Залевский (ИБХ РАН): "Предсказание трехмерной пространственной структуры белков: классические подходы и методы глубокого обучения"
⌚️ Пятница 23 июля, 18.00 по Москве
AlphaFold – программа для предсказания пространственной структуры белков с помощью глубоких нейронных сетей, созданная компанией DeepMind, которая уже отметилась значительными успехами в создании программ, играющих в шахматы и го. AlphaFold наделала много шума осенью 2020 года, когда ей удалось с большим отрывом выиграть соревнования по предсказанию трехмерных структур белков CASP. 15 июля этого года была опубликована статья в Nature с описанием метода (https://www.nature.com/articles/s41586-021-03819-2) и код на GitHub (https://github.com/deepmind/alphafold). Прежде чем разбираться в деталях реализации нейросети, мы хотим рассказать про классические методы предсказания пространственной структуры и историю CASP. Также мы обсудим особенности локального развертывания AlphaFold и покажем результаты первых бенчмарков на собственных научных задачах.
Подробнее о докладчиках:
Ольга Калинина, профессор drug bioinformatics, Helmholtz Institute for Pharmaceutical Research Saarland and Saarland University (https://www.helmholtz-hips.de/en/research/people/person/prof-dr-olga-kalinina/), Артур Залевский, кандидат биологических наук, младший научный сотрудник, Институт биоорганической химии РАН (http://www.ibch.ru/structure/groups/lbaccb/1510)
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Nature
Highly accurate protein structure prediction with AlphaFold
Nature - AlphaFold predicts protein structures with an accuracy competitive with experimental structures in the majority of cases using a novel deep learning architecture.
🚀 @SBERLOGA поздравляет Михаила Галкина с выходом на первое место в наиболее престижном граф-мл конкурсе OGB WikiKG2 и приглашает на его доклад:
👨🔬 Михаил Галкин (McGill University) Compositional Tokenization in Knowledge Graphs
⌚️ Вторник 27 июля, 19.00 по Москве
Разнообразные современные и не очень графовые эмбеддинги подразумевают маппинг каждого узла (ноды, сущности) в свой собственный вектор. На настоящих графах, бОльших, чем стандартные бенчмарки под 50к узлов, это выливается в огромные эмбеддинг матрицы, которые съедают всю память GPU и заставляют распределять тренировку и хранение на кластер GPU. Все это очень напоминает времена word2vec и GloVe с эмбеддингом на каждое слово. Затем, однако, появились subword tokenization алгоритмы (BPE, WordPiece), которые составляют словарь фиксированного размера и могут токенизировать любые известные и неизвестные слова. Теперь такие токенизаторы - основа большинства языковых моделей, где можно позволить потратить больше параметров на эффективные энкодеры вместо эмбеддинг таблиц.
Можно ли как-нибудь адаптировать эту идею для Graph Representation Learning? Собственно, да - и в этом докладе я расскажу о нашей новой работе по токенизации графов NodePiece, которая позволяет уменьшить эмбеддинг таблицы в 10-100 и более раз без существенной потери в качестве. Интересно, что на некоторых задачах мы получаем лучшие метрики вообще без использования эмбеддингов узлов.
C NodePiece мы вышли в топ-1 бенчмарка OGB WikiKG 2 с моделью в 7М параметров тогда как предыдущая сота была на 500М - 1.25B параметров 🙂
Препринт на arxiv, github
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 Михаил Галкин (McGill University) Compositional Tokenization in Knowledge Graphs
⌚️ Вторник 27 июля, 19.00 по Москве
Разнообразные современные и не очень графовые эмбеддинги подразумевают маппинг каждого узла (ноды, сущности) в свой собственный вектор. На настоящих графах, бОльших, чем стандартные бенчмарки под 50к узлов, это выливается в огромные эмбеддинг матрицы, которые съедают всю память GPU и заставляют распределять тренировку и хранение на кластер GPU. Все это очень напоминает времена word2vec и GloVe с эмбеддингом на каждое слово. Затем, однако, появились subword tokenization алгоритмы (BPE, WordPiece), которые составляют словарь фиксированного размера и могут токенизировать любые известные и неизвестные слова. Теперь такие токенизаторы - основа большинства языковых моделей, где можно позволить потратить больше параметров на эффективные энкодеры вместо эмбеддинг таблиц.
Можно ли как-нибудь адаптировать эту идею для Graph Representation Learning? Собственно, да - и в этом докладе я расскажу о нашей новой работе по токенизации графов NodePiece, которая позволяет уменьшить эмбеддинг таблицы в 10-100 и более раз без существенной потери в качестве. Интересно, что на некоторых задачах мы получаем лучшие метрики вообще без использования эмбеддингов узлов.
C NodePiece мы вышли в топ-1 бенчмарка OGB WikiKG 2 с моделью в 7М параметров тогда как предыдущая сота была на 500М - 1.25B параметров 🙂
Препринт на arxiv, github
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Open Graph Benchmark
Leaderboards for Link Property Prediction
Check leaderboards for - ogbl-ppa - ogbl-collab - ogbl-ddi - ogbl-citation2 - ogbl-wikikg2 - ogbl-biokg - ogbl-vessel
🚀 @SBERLOGA приглашает на доклад по граф-мл:
👨🔬 Михаил Галкин (McGill University) Graph Transformers and Spectral Positional Encodings
⌚️ Четверг 29 июля, 19.00 по Москве
Message passing как самый распространенный фреймворк GNN архитектур имеет много теоретических ограничений, заметных по качеству в современных бенчмарках. Сейчас в сообществе ищут способы выйти за пределы message passing и получить более мощные архитектуры. Один из способов уйти за горизонт message passing - использовать трансформеры на полносвязных графах (не то же самое, что GAT - он по-прежнему делает message passing на разреженных графах). Такие графовые трансформеры заняли топовые места в последнем OGB Large Scale Challenge, и в докладе мы посмотрим, как они решают проблему определения позиции нод с помощью их спектральных характеристик
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 Михаил Галкин (McGill University) Graph Transformers and Spectral Positional Encodings
⌚️ Четверг 29 июля, 19.00 по Москве
Message passing как самый распространенный фреймворк GNN архитектур имеет много теоретических ограничений, заметных по качеству в современных бенчмарках. Сейчас в сообществе ищут способы выйти за пределы message passing и получить более мощные архитектуры. Один из способов уйти за горизонт message passing - использовать трансформеры на полносвязных графах (не то же самое, что GAT - он по-прежнему делает message passing на разреженных графах). Такие графовые трансформеры заняли топовые места в последнем OGB Large Scale Challenge, и в докладе мы посмотрим, как они решают проблему определения позиции нод с помощью их спектральных характеристик
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Telegram
Sberloga in Graphs
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
По всем вопросам обращаться @SberlogaHelperBot
🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Четверг 5 августа, 19.00 по Москве
Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.
Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Четверг 5 августа, 19.00 по Москве
Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.
Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Telegram
(sci)Berloga Bioinformatics, Biology, etc. Club
Биоинформатика, дата сайнс, биология. Основное правило - вежливое и уважительное общение.
@sberlogabig - основной канал
@sberlogasci математика, физика, ДС
@sberloga_discussion за жизнь
Доклады:
https://www.youtube.com/c/SciBerloga
@sberlogabig - основной канал
@sberlogasci математика, физика, ДС
@sberloga_discussion за жизнь
Доклады:
https://www.youtube.com/c/SciBerloga
Субботний нетворкинг. Датасайнс начинает активно применятся в биологии, медицине и химии: для поиска новых лекарств, анализа изображений, понимания работы клетки и огромного количества других задач. В будущем данные направления будут только расти, как и поток данных, которые создаются в этих отраслях и требуют анализа. Кто-то уже работает в этой тематике, кто-то может быть столкнётся в будущем, и в таком случае понимания domain knowledge - не помешает. Поэтому хотим порекомендовать несколько каналов, которые интересно описывают, что происходит в этих сферах:
@medicalksu Канал о цифровой трансформации здравоохранения. Новости о телемедицине, технологиях AI/ML, девайсах для врачей и пациентов и проектах биг фармы в digital.
@polyjuice "Зельеваренье Адвансд" лучший канал в тг о химии. (Иван Сорокин, к.х.н., доцент химфака МГУ)
@smart_lab_news Новости нанобиотеха: различные научные события, конкурсы, конференции и канал "ИБХФ РАН. Новости": @ibcp_ras_news
@rfmolbiol Интересные статьи, лекции, ссылки, софт, стажировки, учеба зарубежом, учебники, научные пособия, информация о различных мероприятиях (конференции, воркшопы, школы).
@liza_loves_biology всякая интересная всячина из мира биологии и чат научного клуба ФББ @sciclub_fbb_msu
@darthbiology Интересно обо всём, что относится к биологии и медицине. Просто о сложном.
@medicalksu Канал о цифровой трансформации здравоохранения. Новости о телемедицине, технологиях AI/ML, девайсах для врачей и пациентов и проектах биг фармы в digital.
@polyjuice "Зельеваренье Адвансд" лучший канал в тг о химии. (Иван Сорокин, к.х.н., доцент химфака МГУ)
@smart_lab_news Новости нанобиотеха: различные научные события, конкурсы, конференции и канал "ИБХФ РАН. Новости": @ibcp_ras_news
@rfmolbiol Интересные статьи, лекции, ссылки, софт, стажировки, учеба зарубежом, учебники, научные пособия, информация о различных мероприятиях (конференции, воркшопы, школы).
@liza_loves_biology всякая интересная всячина из мира биологии и чат научного клуба ФББ @sciclub_fbb_msu
@darthbiology Интересно обо всём, что относится к биологии и медицине. Просто о сложном.
🚀 @SBERLOGA
👨🔬 Дани Эль-Айясс: «Web-сервис для генерации текстовых эмбеддингов»
⌚️ Четверг 12 августа, 19.00 по Москве
Одной из самых распространенных задач NLP является задача текстовой классификации. Для обучения такой модели текст нужно представить в виде эмбеддинга. Для этого существуют различные подходы к получению эмбеддингов текстов/предложений, одним из которых является Multilingual Universal Sentence Encoder (MUSE). MUSE реализован на базе архитектуры Transformer, поддерживает 16 языков, включая русский, и показывает хорошее качество в задаче классификации.
В нашей команде, мы используем MUSE в различных проектах. Однако поскольку модель является достаточно тяжелой, приходится задумываться об эффективном использовании ресурсов, чтобы не занимать лишнюю память копиями модели в виртуальных окружениях каждого члена команды.
Для решения данной проблемы, нами был разработан REST API сервис, который можно развернуть на сервере, куда каждый член команды имеет доступ.
У такого подхода также имеется ряд дополнительных преимуществ, о которых будет рассказано во время доклада.
Ссылка на репозиторий с сервисом: https://github.com/dayyass/muse-as-service
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 Дани Эль-Айясс: «Web-сервис для генерации текстовых эмбеддингов»
⌚️ Четверг 12 августа, 19.00 по Москве
Одной из самых распространенных задач NLP является задача текстовой классификации. Для обучения такой модели текст нужно представить в виде эмбеддинга. Для этого существуют различные подходы к получению эмбеддингов текстов/предложений, одним из которых является Multilingual Universal Sentence Encoder (MUSE). MUSE реализован на базе архитектуры Transformer, поддерживает 16 языков, включая русский, и показывает хорошее качество в задаче классификации.
В нашей команде, мы используем MUSE в различных проектах. Однако поскольку модель является достаточно тяжелой, приходится задумываться об эффективном использовании ресурсов, чтобы не занимать лишнюю память копиями модели в виртуальных окружениях каждого члена команды.
Для решения данной проблемы, нами был разработан REST API сервис, который можно развернуть на сервере, куда каждый член команды имеет доступ.
У такого подхода также имеется ряд дополнительных преимуществ, о которых будет рассказано во время доклада.
Ссылка на репозиторий с сервисом: https://github.com/dayyass/muse-as-service
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
GitHub
GitHub - dayyass/muse-as-service: REST API for sentence tokenization and embedding using Multilingual Universal Sentence Encoder.
REST API for sentence tokenization and embedding using Multilingual Universal Sentence Encoder. - dayyass/muse-as-service
Планируем доклад Василия Раменского на 13 августа (перенос с прошлой недели)
🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Пятница 13 августа, 19.00 по Москве
Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.
Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Пятница 13 августа, 19.00 по Москве
Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.
Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины
PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Telegram
(sci)Berloga Bioinformatics, Biology, etc. Club
Биоинформатика, дата сайнс, биология. Основное правило - вежливое и уважительное общение.
@sberlogabig - основной канал
@sberlogasci математика, физика, ДС
@sberloga_discussion за жизнь
Доклады:
https://www.youtube.com/c/SciBerloga
@sberlogabig - основной канал
@sberlogasci математика, физика, ДС
@sberloga_discussion за жизнь
Доклады:
https://www.youtube.com/c/SciBerloga
🚀 Если вы интересуетесь современной математикой/физикой, а также связями этих областей с дата-сайнс - добро пожаловать в чат https://news.1rj.ru/str/sberlogasci . Мы также планируем он-лайн доклады, которые помогут людями с научным бекграундом ознакомиться с идеями дата-сайнс и, возможно, найти точки соприкосновения. Первый доклад этой серии:
👨🔬 Фарид Хафизов : "Введение в ворд2век"
⌚️ Четверг 19 августа, 17.00 по Москве
Word2vec - алгоритм, который революционизировал датасайнс подходы к обработке естественных языков и лег в основу огромной массы последующих работ. Статья Миколова и соавторав 2013 года (https://arxiv.org/abs/1310.4546) цитируется более 28 тысяч раз, что очень много даже для датасайнс. В статье предложено построение "эмбединга" слов - каждому слову языка сопоставляется вектор в многомерном пространстве, то есть язык вкладывается(=эмбедится) в векторное пространство. Близость в векторном пространстве при этом отражает некоторую смысловую близость слов. Сама идея эмбединга существовала и до этого, но авторы совершили прорыв показав, как каким образом ее можно успешно и эффективно реализовать. В последствии было предложено огромное количество обобщений - эмбединги для графов, гиперболические эмбединги (то есть в пространство Лобачевского), контекстно зависимые эмбединги и так далее.
В докладе мы разберём основные идеи положенные в основу skip-gram алгоритма.
На простом примере будет проиллюстрирован базовый алгоритм.
Презентация рассчитана на тех, кто начинает изучать NLP.
PS
Ссылка на зум будет доступна в тг чатах https://news.1rj.ru/str/sberlogasci, https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
👨🔬 Фарид Хафизов : "Введение в ворд2век"
⌚️ Четверг 19 августа, 17.00 по Москве
Word2vec - алгоритм, который революционизировал датасайнс подходы к обработке естественных языков и лег в основу огромной массы последующих работ. Статья Миколова и соавторав 2013 года (https://arxiv.org/abs/1310.4546) цитируется более 28 тысяч раз, что очень много даже для датасайнс. В статье предложено построение "эмбединга" слов - каждому слову языка сопоставляется вектор в многомерном пространстве, то есть язык вкладывается(=эмбедится) в векторное пространство. Близость в векторном пространстве при этом отражает некоторую смысловую близость слов. Сама идея эмбединга существовала и до этого, но авторы совершили прорыв показав, как каким образом ее можно успешно и эффективно реализовать. В последствии было предложено огромное количество обобщений - эмбединги для графов, гиперболические эмбединги (то есть в пространство Лобачевского), контекстно зависимые эмбединги и так далее.
В докладе мы разберём основные идеи положенные в основу skip-gram алгоритма.
На простом примере будет проиллюстрирован базовый алгоритм.
Презентация рассчитана на тех, кто начинает изучать NLP.
PS
Ссылка на зум будет доступна в тг чатах https://news.1rj.ru/str/sberlogasci, https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Telegram
(sci)Berloga Science
Математика, физика, дата сайнс. Основное правило - вежливое и уважительное общение.
@sberlogabig основной канал
@sberlogabio биоинформатика, биология
@sberlogatalkclub за жизнь
@sberlogabig основной канал
@sberlogabio биоинформатика, биология
@sberlogatalkclub за жизнь
Прошедшие доклады выложил на youtube:
Подход и кейсы process mining - Александр Кореков, Данил Сметанев (Сбер)
https://youtu.be/4j8KYrefS3g
Compositional Tokenization in Knowledge Graphs - Михаил Галкин (McGill University)
https://youtu.be/Zy_DPlWmj7Q
Graph Transformers and Spectral Positional Encodings - Михаил Галкин (McGill University)
https://youtu.be/RTeUzp4qrxE
Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст - Eгор Плотников (Сбер)
https://youtu.be/Mz3JI_Jxx84
Web-сервис для генерации текстовых эмбеддингов - Дани Эль-Айясс (Сбер)
https://youtu.be/ZayiaA84oXg
Структуры белков и варианты генома - В. Е. Раменский (МГУ)
https://youtu.be/j0m90ZErSrE
Введение в ворд2век - Фарид Хафизов
https://youtu.be/RRZQy-IUK9Y
Предсказание 3D пространственной структуры белков: классические подходы и методы глубокого обучения - проф. О. Калинина (Helmholtz Institute), к.б.н А. Залевский (ИБХ РАН)
https://youtu.be/nF40znjUfNM
Подход и кейсы process mining - Александр Кореков, Данил Сметанев (Сбер)
https://youtu.be/4j8KYrefS3g
Compositional Tokenization in Knowledge Graphs - Михаил Галкин (McGill University)
https://youtu.be/Zy_DPlWmj7Q
Graph Transformers and Spectral Positional Encodings - Михаил Галкин (McGill University)
https://youtu.be/RTeUzp4qrxE
Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст - Eгор Плотников (Сбер)
https://youtu.be/Mz3JI_Jxx84
Web-сервис для генерации текстовых эмбеддингов - Дани Эль-Айясс (Сбер)
https://youtu.be/ZayiaA84oXg
Структуры белков и варианты генома - В. Е. Раменский (МГУ)
https://youtu.be/j0m90ZErSrE
Введение в ворд2век - Фарид Хафизов
https://youtu.be/RRZQy-IUK9Y
Предсказание 3D пространственной структуры белков: классические подходы и методы глубокого обучения - проф. О. Калинина (Helmholtz Institute), к.б.н А. Залевский (ИБХ РАН)
https://youtu.be/nF40znjUfNM
YouTube
Compositional Tokenization in Knowledge Graphs - Михаил Галкин (McGill University)
Разнообразные современные и не очень графовые эмбеддинги подразумевают маппинг каждого узла (ноды, сущности) в свой собственный вектор. На настоящих графах, бОльших, чем стандартные бенчмарки под 50к узлов, это выливается в огромные эмбеддинг матрицы, которые…
