Sberloga – Telegram
Sberloga
2.49K subscribers
219 photos
34 videos
7 files
255 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
Записывайтесь добровольцами на разбор АльфФолд2 от Гугл ДипМайнд https://news.1rj.ru/str/sberlogabio/7357

Подробней тут: https://news.1rj.ru/str/sberloga/95 , присоединяйтесь к группе https://news.1rj.ru/str/sberlogabio для координации усилий
Революционное достижение от Гугл ДипМайнд (анонс осень 2020) - АльфаФолд2 - очень точное предсказание трехмерной структуры белков (то есть координат в трехмерном пространстве атомов белка), зная только последовательность аминокислот белка (то есть одномерную структуру).
На днях (15 июля) Дипмайнд выложил более подробное описание своей работы, а незадолго до этого группа независимых исследователей выложило менее совершенное,
но и менее ресурсоемкое решение - РозеттаФолд.

Давайте попробуем разобраться в этих работах - присоединяйтесь к 70 "добровольцам" на разбор этих работы в https://news.1rj.ru/str/sberlogabio/7357 .

Статья Альфафолд2: https://www.nature.com/articles/s41586-021-03819-2
Модель: https://github.com/deepmind/alphafold

Замечательные посты Григория Сапунова, с кратким описанием достижений:
РозеттаФолд: https://news.1rj.ru/str/gonzo_ML/642
АльфаФолд2: https://news.1rj.ru/str/gonzo_ML/649

Каггл можно использовать для сбора материалов (данных, скриптов, ссылок, обсуждений) по этой активности:
https://www.kaggle.com/alexandervc/towards-understanding-alphafold2-and-rosettafold
🚀 @SBERLOGA онлайн доклад по дс&граф-мл
👨‍🔬 Александр Кореков, Данил Сметанев (Сбер) "Подход и кейсы process mining"
⌚️ Вторник 20 июля, 19.00 по Москве

Process Mining - это относительно молодая область знаний. Она сочетает в себе подходы для анализа как операционных процессов компании, так и клиентских путей (customer journey) в любый фронтальных и бэкендовых системах, а в качестве источника данных обычно используют event logs разной степени детализации. В нашем рассказе хотим познакомить вас с основными бизнес-задачами в process mining, поговорить о подходах и проблематике при построении аналитики по event logs, посвятить в кейсы разбора клиентских путей, а также рассказать о нашей новой библиотеке sberPM: https://github.com/SberProcessMining/Sber_Process_Mining
Доклад будет перекликаться с нашей статьей https://habr.com/ru/company/sberbank/blog/565476/

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA продолжает онлайны доклады по NLP (Natural Language Processing)
👨‍🔬 Eгор Плотников (Сбер) "Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст."
⌚️ Четверг 22 июля, 19.00 по Москве


За последние несколько лет генеративные модели в NLP сделали большой шаг вперед. Сейчас языковые модели могут без проблем порождать связный, релевантный текст либо с нуля, либо путем завершения отрывка, начатого пользователем. Однако в стандартной постановке задачи человек имеет достаточно слабый контроль над итоговым результатом генерации. Например, было бы неплохо уметь задавать тему, которой должен соответствовать текст, эмоциональную окраску, стиль повествования и т.д. В данном докладе будет рассмотрено несколько статей, так или иначе решающих эту проблему:
https://arxiv.org/abs/1909.05858 "CTRL: A Conditional Transformer Language Model for Controllable Generation"
https://arxiv.org/abs/1912.02164 "Plug and Play Language Models: A Simple Approach to Controlled Text Generation"

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Channel photo updated
Ребята, около 2х лет назад Александр Червов создал наше сообщество с небольших совместных обедов Датасаентистов, и теперь нас уже более 1000 человек!
Немного запоздало мы ДР наш празднуем, но все же решили обновить дизайн 🥳 Напишите если понравился 🤗
🚀 @SBERLOGA начинает серию онлайн докладов посвященных Альфафолд (революционному достижению от Гугл ДипМайнд на стыке датасайнс и биологии)
👨‍🔬 проф. О. Калинина (Helmholtz Institute), к.б.н А. Залевский (ИБХ РАН): "Предсказание трехмерной пространственной структуры белков: классические подходы и методы глубокого обучения"
⌚️ Пятница 23 июля, 18.00 по Москве

AlphaFold – программа для предсказания пространственной структуры белков с помощью глубоких нейронных сетей, созданная компанией DeepMind, которая уже отметилась значительными успехами в создании программ, играющих в шахматы и го. AlphaFold наделала много шума осенью 2020 года, когда ей удалось с большим отрывом выиграть соревнования по предсказанию трехмерных структур белков CASP. 15 июля этого года была опубликована статья в Nature с описанием метода (https://www.nature.com/articles/s41586-021-03819-2) и код на GitHub (https://github.com/deepmind/alphafold). Прежде чем разбираться в деталях реализации нейросети, мы хотим рассказать про классические методы предсказания пространственной структуры и историю CASP. Также мы обсудим особенности локального развертывания AlphaFold и покажем результаты первых бенчмарков на собственных научных задачах.

Подробнее о докладчиках:
Ольга Калинина, профессор drug bioinformatics, Helmholtz Institute for Pharmaceutical Research Saarland and Saarland University (https://www.helmholtz-hips.de/en/research/people/person/prof-dr-olga-kalinina/), Артур Залевский, кандидат биологических наук, младший научный сотрудник, Институт биоорганической химии РАН (http://www.ibch.ru/structure/groups/lbaccb/1510)

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA поздравляет Михаила Галкина с выходом на первое место в наиболее престижном граф-мл конкурсе OGB WikiKG2 и приглашает на его доклад:
👨‍🔬 Михаил Галкин (McGill University) Compositional Tokenization in Knowledge Graphs
⌚️ Вторник 27 июля, 19.00 по Москве

Разнообразные современные и не очень графовые эмбеддинги подразумевают маппинг каждого узла (ноды, сущности) в свой собственный вектор. На настоящих графах, бОльших, чем стандартные бенчмарки под 50к узлов, это выливается в огромные эмбеддинг матрицы, которые съедают всю память GPU и заставляют распределять тренировку и хранение на кластер GPU. Все это очень напоминает времена word2vec и GloVe с эмбеддингом на каждое слово. Затем, однако, появились subword tokenization алгоритмы (BPE, WordPiece), которые составляют словарь фиксированного размера и могут токенизировать любые известные и неизвестные слова. Теперь такие токенизаторы - основа большинства языковых моделей, где можно позволить потратить больше параметров на эффективные энкодеры вместо эмбеддинг таблиц.

Можно ли как-нибудь адаптировать эту идею для Graph Representation Learning? Собственно, да - и в этом докладе я расскажу о нашей новой работе по токенизации графов NodePiece, которая позволяет уменьшить эмбеддинг таблицы в 10-100 и более раз без существенной потери в качестве. Интересно, что на некоторых задачах мы получаем лучшие метрики вообще без использования эмбеддингов узлов.

C NodePiece мы вышли в топ-1 бенчмарка OGB WikiKG 2 с моделью в 7М параметров тогда как предыдущая сота была на 500М - 1.25B параметров 🙂

Препринт на arxiv, github

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA приглашает на доклад по граф-мл:
👨‍🔬 Михаил Галкин (McGill University) Graph Transformers and Spectral Positional Encodings
⌚️ Четверг 29 июля, 19.00 по Москве

Message passing как самый распространенный фреймворк GNN архитектур имеет много теоретических ограничений, заметных по качеству в современных бенчмарках. Сейчас в сообществе ищут способы выйти за пределы message passing и получить более мощные архитектуры. Один из способов уйти за горизонт message passing - использовать трансформеры на полносвязных графах (не то же самое, что GAT - он по-прежнему делает message passing на разреженных графах). Такие графовые трансформеры заняли топовые места в последнем OGB Large Scale Challenge, и в докладе мы посмотрим, как они решают проблему определения позиции нод с помощью их спектральных характеристик

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨‍🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Четверг 5 августа, 19.00 по Москве

Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.

Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Субботний нетворкинг. Датасайнс начинает активно применятся в биологии, медицине и химии: для поиска новых лекарств, анализа изображений, понимания работы клетки и огромного количества других задач. В будущем данные направления будут только расти, как и поток данных, которые создаются в этих отраслях и требуют анализа. Кто-то уже работает в этой тематике, кто-то может быть столкнётся в будущем, и в таком случае понимания domain knowledge - не помешает. Поэтому хотим порекомендовать несколько каналов, которые интересно описывают, что происходит в этих сферах:

@medicalksu Канал о цифровой трансформации здравоохранения. Новости о телемедицине, технологиях AI/ML, девайсах для врачей и пациентов и проектах биг фармы в digital.

@polyjuice "Зельеваренье Адвансд" лучший канал в тг о химии. (Иван Сорокин, к.х.н., доцент химфака МГУ)

@smart_lab_news Новости нанобиотеха: различные научные события, конкурсы, конференции и канал "ИБХФ РАН. Новости": @ibcp_ras_news

@rfmolbiol Интересные статьи, лекции, ссылки, софт, стажировки, учеба зарубежом, учебники, научные пособия, информация о различных мероприятиях (конференции, воркшопы, школы).

@liza_loves_biology всякая интересная всячина из мира биологии и чат научного клуба ФББ @sciclub_fbb_msu

@darthbiology Интересно обо всём, что относится к биологии и медицине. Просто о сложном.
🚀 @SBERLOGA
👨‍🔬 Дани Эль-Айясс: «Web-сервис для генерации текстовых эмбеддингов»
⌚️ Четверг 12 августа, 19.00 по Москве

Одной из самых распространенных задач NLP является задача текстовой классификации. Для обучения такой модели текст нужно представить в виде эмбеддинга. Для этого существуют различные подходы к получению эмбеддингов текстов/предложений, одним из которых является Multilingual Universal Sentence Encoder (MUSE). MUSE реализован на базе архитектуры Transformer, поддерживает 16 языков, включая русский, и показывает хорошее качество в задаче классификации.

В нашей команде, мы используем MUSE в различных проектах. Однако поскольку модель является достаточно тяжелой, приходится задумываться об эффективном использовании ресурсов, чтобы не занимать лишнюю память копиями модели в виртуальных окружениях каждого члена команды.

Для решения данной проблемы, нами был разработан REST API сервис, который можно развернуть на сервере, куда каждый член команды имеет доступ.

У такого подхода также имеется ряд дополнительных преимуществ, о которых будет рассказано во время доклада.

Ссылка на репозиторий с сервисом: https://github.com/dayyass/muse-as-service

Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Планируем доклад Василия Раменского на 13 августа (перенос с прошлой недели)

🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨‍🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Пятница 13 августа, 19.00 по Москве

Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.

Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 Если вы интересуетесь современной математикой/физикой, а также связями этих областей с дата-сайнс - добро пожаловать в чат https://news.1rj.ru/str/sberlogasci . Мы также планируем он-лайн доклады, которые помогут людями с научным бекграундом ознакомиться с идеями дата-сайнс и, возможно, найти точки соприкосновения. Первый доклад этой серии:

👨‍🔬 Фарид Хафизов : "Введение в ворд2век"
⌚️ Четверг 19 августа, 17.00 по Москве

Word2vec - алгоритм, который революционизировал датасайнс подходы к обработке естественных языков и лег в основу огромной массы последующих работ. Статья Миколова и соавторав 2013 года (https://arxiv.org/abs/1310.4546) цитируется более 28 тысяч раз, что очень много даже для датасайнс. В статье предложено построение "эмбединга" слов - каждому слову языка сопоставляется вектор в многомерном пространстве, то есть язык вкладывается(=эмбедится) в векторное пространство. Близость в векторном пространстве при этом отражает некоторую смысловую близость слов. Сама идея эмбединга существовала и до этого, но авторы совершили прорыв показав, как каким образом ее можно успешно и эффективно реализовать. В последствии было предложено огромное количество обобщений - эмбединги для графов, гиперболические эмбединги (то есть в пространство Лобачевского), контекстно зависимые эмбединги и так далее.

В докладе мы разберём основные идеи положенные в основу skip-gram алгоритма.
На простом примере будет проиллюстрирован базовый алгоритм.
Презентация рассчитана на тех, кто начинает изучать NLP.

PS
Ссылка на зум будет доступна в тг чатах https://news.1rj.ru/str/sberlogasci, https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Прошедшие доклады выложил на youtube:

Подход и кейсы process mining - Александр Кореков, Данил Сметанев (Сбер)
https://youtu.be/4j8KYrefS3g

Compositional Tokenization in Knowledge Graphs - Михаил Галкин (McGill University)
https://youtu.be/Zy_DPlWmj7Q

Graph Transformers and Spectral Positional Encodings - Михаил Галкин (McGill University)
https://youtu.be/RTeUzp4qrxE

Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст - Eгор Плотников (Сбер)
https://youtu.be/Mz3JI_Jxx84

Web-сервис для генерации текстовых эмбеддингов - Дани Эль-Айясс (Сбер)
https://youtu.be/ZayiaA84oXg

Структуры белков и варианты генома - В. Е. Раменский (МГУ)
https://youtu.be/j0m90ZErSrE

Введение в ворд2век - Фарид Хафизов
https://youtu.be/RRZQy-IUK9Y

Предсказание 3D пространственной структуры белков: классические подходы и методы глубокого обучения - проф. О. Калинина (Helmholtz Institute), к.б.н А. Залевский (ИБХ РАН)
https://youtu.be/nF40znjUfNM
🚀 @SBERLOGA онлайн доклад по биоинформатике:
👨‍🔬 В. А. Шитов (СибГМУ): "Инструменты для понимания межклеточных взаимодействий по данным SC RNA-Seq"
⌚️ Четверг 2 сентября, 19.00 по Москве

Методы Single Cell RNA-Seq позволяют изучать ткани на масштабе отдельных клеток. Обычно, они используются для понимания клеточных типов и их путей дифференцировки. В последнее время появляются методы, которые позволяют извлечь ещё больше информации из данных транскриптомики единичных клеток. Например, понять как клетки взаимодействуют друг с другом. Я расскажу о существующих инструментах для понимания межклеточных взаимодействий, принципах их работы, сходствах и различиях. А также о своём небольшом проекте по созданию единого интерфейса для разных программ, решающих эту задачу.

Статьи:
CellPhoneDB: https://www.nature.com/articles/s41596-020-0292-x
CellChat: https://www.nature.com/articles/s41467-021-21246-9
CellCall: https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab638/6332819

Презентация: https://docs.google.com/presentation/d/1apcFiHPh4vlKiIO7RELs5XKh6q-uZaUhYj1X9sLOtj8/edit?usp=sharing

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
git_hooks_is_all_you_need.pptx
3.7 MB
🚀 @SBERLOGA
👨‍🔬 Дани Эль-Айясс: «Git hooks is all you need»
⌚️ Четверг 9 сентября, 19.00 по Москве

Git Hooks — это полезный инструмент в арсенале каждого программиста, который помогает как в автоматизации рутинных вещей, так и решении определенных проблем, возникающих при разработке.

В рамках работы над проектом всегда хочется, чтобы код был читаемым, соответствовал определенным стандартам, работал корректно и не падал на тестах, и для достижения этого, большую роль играют такие вещи, как средства форматирования кода, статические анализаторы, линтеры, запуск тестов, и т.д.

Все это отнимает время, но не тогда, когда есть настроенные Git Hooks!

Ссылка на репозиторий:
https://github.com/dayyass/git_hooks_is_all_you_need

Ссылка на зум будет доступна через тг чат
https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.

Видео записи докладов доступны на ютуб канале SBERLOGA
https://www.youtube.com/c/sberloga
🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨‍🔬 к.б.н А. Залевский (ИБХ РАН) и Д. Иванков (Сколково) расскажут о своих новых работах по АльфаФолду
⌚️ Пятница 8 октября, 19.00 по Москве

Дмитрий расскажет о том, что АльфаФолд не годится для предсказания изменения стабильности и изменения функциональности белка вследствие мутации.
https://www.biorxiv.org/content/10.1101/2021.09.19.460937v1

Артур расскажет дайджест обзора основных вопросов о АльфаФолде: полнота предсказаний, предсказания нативно неструктурированных регионов, предсказания димеров, пригодность для криоЭМ и множество других занятных наблюдений:
https://www.biorxiv.org/content/10.1101/2021.09.26.461876v1

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga