Sberloga – Telegram
Sberloga
2.49K subscribers
219 photos
34 videos
7 files
255 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
Channel photo updated
Ребята, около 2х лет назад Александр Червов создал наше сообщество с небольших совместных обедов Датасаентистов, и теперь нас уже более 1000 человек!
Немного запоздало мы ДР наш празднуем, но все же решили обновить дизайн 🥳 Напишите если понравился 🤗
🚀 @SBERLOGA начинает серию онлайн докладов посвященных Альфафолд (революционному достижению от Гугл ДипМайнд на стыке датасайнс и биологии)
👨‍🔬 проф. О. Калинина (Helmholtz Institute), к.б.н А. Залевский (ИБХ РАН): "Предсказание трехмерной пространственной структуры белков: классические подходы и методы глубокого обучения"
⌚️ Пятница 23 июля, 18.00 по Москве

AlphaFold – программа для предсказания пространственной структуры белков с помощью глубоких нейронных сетей, созданная компанией DeepMind, которая уже отметилась значительными успехами в создании программ, играющих в шахматы и го. AlphaFold наделала много шума осенью 2020 года, когда ей удалось с большим отрывом выиграть соревнования по предсказанию трехмерных структур белков CASP. 15 июля этого года была опубликована статья в Nature с описанием метода (https://www.nature.com/articles/s41586-021-03819-2) и код на GitHub (https://github.com/deepmind/alphafold). Прежде чем разбираться в деталях реализации нейросети, мы хотим рассказать про классические методы предсказания пространственной структуры и историю CASP. Также мы обсудим особенности локального развертывания AlphaFold и покажем результаты первых бенчмарков на собственных научных задачах.

Подробнее о докладчиках:
Ольга Калинина, профессор drug bioinformatics, Helmholtz Institute for Pharmaceutical Research Saarland and Saarland University (https://www.helmholtz-hips.de/en/research/people/person/prof-dr-olga-kalinina/), Артур Залевский, кандидат биологических наук, младший научный сотрудник, Институт биоорганической химии РАН (http://www.ibch.ru/structure/groups/lbaccb/1510)

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA поздравляет Михаила Галкина с выходом на первое место в наиболее престижном граф-мл конкурсе OGB WikiKG2 и приглашает на его доклад:
👨‍🔬 Михаил Галкин (McGill University) Compositional Tokenization in Knowledge Graphs
⌚️ Вторник 27 июля, 19.00 по Москве

Разнообразные современные и не очень графовые эмбеддинги подразумевают маппинг каждого узла (ноды, сущности) в свой собственный вектор. На настоящих графах, бОльших, чем стандартные бенчмарки под 50к узлов, это выливается в огромные эмбеддинг матрицы, которые съедают всю память GPU и заставляют распределять тренировку и хранение на кластер GPU. Все это очень напоминает времена word2vec и GloVe с эмбеддингом на каждое слово. Затем, однако, появились subword tokenization алгоритмы (BPE, WordPiece), которые составляют словарь фиксированного размера и могут токенизировать любые известные и неизвестные слова. Теперь такие токенизаторы - основа большинства языковых моделей, где можно позволить потратить больше параметров на эффективные энкодеры вместо эмбеддинг таблиц.

Можно ли как-нибудь адаптировать эту идею для Graph Representation Learning? Собственно, да - и в этом докладе я расскажу о нашей новой работе по токенизации графов NodePiece, которая позволяет уменьшить эмбеддинг таблицы в 10-100 и более раз без существенной потери в качестве. Интересно, что на некоторых задачах мы получаем лучшие метрики вообще без использования эмбеддингов узлов.

C NodePiece мы вышли в топ-1 бенчмарка OGB WikiKG 2 с моделью в 7М параметров тогда как предыдущая сота была на 500М - 1.25B параметров 🙂

Препринт на arxiv, github

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA приглашает на доклад по граф-мл:
👨‍🔬 Михаил Галкин (McGill University) Graph Transformers and Spectral Positional Encodings
⌚️ Четверг 29 июля, 19.00 по Москве

Message passing как самый распространенный фреймворк GNN архитектур имеет много теоретических ограничений, заметных по качеству в современных бенчмарках. Сейчас в сообществе ищут способы выйти за пределы message passing и получить более мощные архитектуры. Один из способов уйти за горизонт message passing - использовать трансформеры на полносвязных графах (не то же самое, что GAT - он по-прежнему делает message passing на разреженных графах). Такие графовые трансформеры заняли топовые места в последнем OGB Large Scale Challenge, и в докладе мы посмотрим, как они решают проблему определения позиции нод с помощью их спектральных характеристик

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨‍🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Четверг 5 августа, 19.00 по Москве

Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.

Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Субботний нетворкинг. Датасайнс начинает активно применятся в биологии, медицине и химии: для поиска новых лекарств, анализа изображений, понимания работы клетки и огромного количества других задач. В будущем данные направления будут только расти, как и поток данных, которые создаются в этих отраслях и требуют анализа. Кто-то уже работает в этой тематике, кто-то может быть столкнётся в будущем, и в таком случае понимания domain knowledge - не помешает. Поэтому хотим порекомендовать несколько каналов, которые интересно описывают, что происходит в этих сферах:

@medicalksu Канал о цифровой трансформации здравоохранения. Новости о телемедицине, технологиях AI/ML, девайсах для врачей и пациентов и проектах биг фармы в digital.

@polyjuice "Зельеваренье Адвансд" лучший канал в тг о химии. (Иван Сорокин, к.х.н., доцент химфака МГУ)

@smart_lab_news Новости нанобиотеха: различные научные события, конкурсы, конференции и канал "ИБХФ РАН. Новости": @ibcp_ras_news

@rfmolbiol Интересные статьи, лекции, ссылки, софт, стажировки, учеба зарубежом, учебники, научные пособия, информация о различных мероприятиях (конференции, воркшопы, школы).

@liza_loves_biology всякая интересная всячина из мира биологии и чат научного клуба ФББ @sciclub_fbb_msu

@darthbiology Интересно обо всём, что относится к биологии и медицине. Просто о сложном.
🚀 @SBERLOGA
👨‍🔬 Дани Эль-Айясс: «Web-сервис для генерации текстовых эмбеддингов»
⌚️ Четверг 12 августа, 19.00 по Москве

Одной из самых распространенных задач NLP является задача текстовой классификации. Для обучения такой модели текст нужно представить в виде эмбеддинга. Для этого существуют различные подходы к получению эмбеддингов текстов/предложений, одним из которых является Multilingual Universal Sentence Encoder (MUSE). MUSE реализован на базе архитектуры Transformer, поддерживает 16 языков, включая русский, и показывает хорошее качество в задаче классификации.

В нашей команде, мы используем MUSE в различных проектах. Однако поскольку модель является достаточно тяжелой, приходится задумываться об эффективном использовании ресурсов, чтобы не занимать лишнюю память копиями модели в виртуальных окружениях каждого члена команды.

Для решения данной проблемы, нами был разработан REST API сервис, который можно развернуть на сервере, куда каждый член команды имеет доступ.

У такого подхода также имеется ряд дополнительных преимуществ, о которых будет рассказано во время доклада.

Ссылка на репозиторий с сервисом: https://github.com/dayyass/muse-as-service

Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Планируем доклад Василия Раменского на 13 августа (перенос с прошлой недели)

🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨‍🔬 В. Е. Раменский (МГУ): "Структуры белков и варианты генома"
⌚️ Пятница 13 августа, 19.00 по Москве

Первые кристаллографические структуры белков дали возможность описать возможные механизмы действия немногочисленных известных тогда болезнетворных замен аминокислот в белках. Пятьдесят лет спустя огромное количество обнаруженных у человека вариантов последовательности позволяет понять, какие участки белков являются мишенями для болезнетворных мутаций и какие структурные свойства характерны для болезнетворных и нейтральных замен.

Василий Евгеньевич Раменский, к.ф.-м.н., доцент МГУ им М.В.Ломоносова,
Руководитель лаб. геномной и медицинской биоинформатики
НМИЦ Терапии и профилактической медицины

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
🚀 Если вы интересуетесь современной математикой/физикой, а также связями этих областей с дата-сайнс - добро пожаловать в чат https://news.1rj.ru/str/sberlogasci . Мы также планируем он-лайн доклады, которые помогут людями с научным бекграундом ознакомиться с идеями дата-сайнс и, возможно, найти точки соприкосновения. Первый доклад этой серии:

👨‍🔬 Фарид Хафизов : "Введение в ворд2век"
⌚️ Четверг 19 августа, 17.00 по Москве

Word2vec - алгоритм, который революционизировал датасайнс подходы к обработке естественных языков и лег в основу огромной массы последующих работ. Статья Миколова и соавторав 2013 года (https://arxiv.org/abs/1310.4546) цитируется более 28 тысяч раз, что очень много даже для датасайнс. В статье предложено построение "эмбединга" слов - каждому слову языка сопоставляется вектор в многомерном пространстве, то есть язык вкладывается(=эмбедится) в векторное пространство. Близость в векторном пространстве при этом отражает некоторую смысловую близость слов. Сама идея эмбединга существовала и до этого, но авторы совершили прорыв показав, как каким образом ее можно успешно и эффективно реализовать. В последствии было предложено огромное количество обобщений - эмбединги для графов, гиперболические эмбединги (то есть в пространство Лобачевского), контекстно зависимые эмбединги и так далее.

В докладе мы разберём основные идеи положенные в основу skip-gram алгоритма.
На простом примере будет проиллюстрирован базовый алгоритм.
Презентация рассчитана на тех, кто начинает изучать NLP.

PS
Ссылка на зум будет доступна в тг чатах https://news.1rj.ru/str/sberlogasci, https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
Прошедшие доклады выложил на youtube:

Подход и кейсы process mining - Александр Кореков, Данил Сметанев (Сбер)
https://youtu.be/4j8KYrefS3g

Compositional Tokenization in Knowledge Graphs - Михаил Галкин (McGill University)
https://youtu.be/Zy_DPlWmj7Q

Graph Transformers and Spectral Positional Encodings - Михаил Галкин (McGill University)
https://youtu.be/RTeUzp4qrxE

Снова про управление мамонтами, или как заставить языковую модель генерировать нужный нам текст - Eгор Плотников (Сбер)
https://youtu.be/Mz3JI_Jxx84

Web-сервис для генерации текстовых эмбеддингов - Дани Эль-Айясс (Сбер)
https://youtu.be/ZayiaA84oXg

Структуры белков и варианты генома - В. Е. Раменский (МГУ)
https://youtu.be/j0m90ZErSrE

Введение в ворд2век - Фарид Хафизов
https://youtu.be/RRZQy-IUK9Y

Предсказание 3D пространственной структуры белков: классические подходы и методы глубокого обучения - проф. О. Калинина (Helmholtz Institute), к.б.н А. Залевский (ИБХ РАН)
https://youtu.be/nF40znjUfNM
🚀 @SBERLOGA онлайн доклад по биоинформатике:
👨‍🔬 В. А. Шитов (СибГМУ): "Инструменты для понимания межклеточных взаимодействий по данным SC RNA-Seq"
⌚️ Четверг 2 сентября, 19.00 по Москве

Методы Single Cell RNA-Seq позволяют изучать ткани на масштабе отдельных клеток. Обычно, они используются для понимания клеточных типов и их путей дифференцировки. В последнее время появляются методы, которые позволяют извлечь ещё больше информации из данных транскриптомики единичных клеток. Например, понять как клетки взаимодействуют друг с другом. Я расскажу о существующих инструментах для понимания межклеточных взаимодействий, принципах их работы, сходствах и различиях. А также о своём небольшом проекте по созданию единого интерфейса для разных программ, решающих эту задачу.

Статьи:
CellPhoneDB: https://www.nature.com/articles/s41596-020-0292-x
CellChat: https://www.nature.com/articles/s41467-021-21246-9
CellCall: https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab638/6332819

Презентация: https://docs.google.com/presentation/d/1apcFiHPh4vlKiIO7RELs5XKh6q-uZaUhYj1X9sLOtj8/edit?usp=sharing

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
git_hooks_is_all_you_need.pptx
3.7 MB
🚀 @SBERLOGA
👨‍🔬 Дани Эль-Айясс: «Git hooks is all you need»
⌚️ Четверг 9 сентября, 19.00 по Москве

Git Hooks — это полезный инструмент в арсенале каждого программиста, который помогает как в автоматизации рутинных вещей, так и решении определенных проблем, возникающих при разработке.

В рамках работы над проектом всегда хочется, чтобы код был читаемым, соответствовал определенным стандартам, работал корректно и не падал на тестах, и для достижения этого, большую роль играют такие вещи, как средства форматирования кода, статические анализаторы, линтеры, запуск тестов, и т.д.

Все это отнимает время, но не тогда, когда есть настроенные Git Hooks!

Ссылка на репозиторий:
https://github.com/dayyass/git_hooks_is_all_you_need

Ссылка на зум будет доступна через тг чат
https://news.1rj.ru/str/sberlogadataclub ближе к началу доклада.

Видео записи докладов доступны на ютуб канале SBERLOGA
https://www.youtube.com/c/sberloga
🚀 @SBERLOGA продолжает серию онлайн докладов посвященных АльфаФолд и темам вокруг него:
👨‍🔬 к.б.н А. Залевский (ИБХ РАН) и Д. Иванков (Сколково) расскажут о своих новых работах по АльфаФолду
⌚️ Пятница 8 октября, 19.00 по Москве

Дмитрий расскажет о том, что АльфаФолд не годится для предсказания изменения стабильности и изменения функциональности белка вследствие мутации.
https://www.biorxiv.org/content/10.1101/2021.09.19.460937v1

Артур расскажет дайджест обзора основных вопросов о АльфаФолде: полнота предсказаний, предсказания нативно неструктурированных регионов, предсказания димеров, пригодность для криоЭМ и множество других занятных наблюдений:
https://www.biorxiv.org/content/10.1101/2021.09.26.461876v1

PS
Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу доклада.
Видео записи докладов доступны на ютуб канале SBERLOGA https://www.youtube.com/c/sberloga
https://news.1rj.ru/str/AI_meetups/506
Вебинар по использованию ML Space в SberCloud
Сам им не пользовался, однако не так давно был на демо и был приятно удивлен. Ребята сделали крутой продукт и с точки зрения функционала и удобства. Так то всегда есть колаб или кагл чтобы позапускать свои мл модельки, но если речь касается командной работы или вывода модели в пром то я думаю много датасаентистов сталкивались с разными "сложностями" 🤪

В общем представляю:
Бесплатный Вебинар ML Space на базе инструментов Intel oneAPI для всех желающих.
На вебинаре вы узнаете:
— подробности об инструментах Intel® oneAPI;
— сценарии применения этих инструментов для построения ML-моделей;
— как получить бесплатный доступ к инструментам на платформе ML Space.
Вебинар будет полезен всем, кто интересуется data science.
Регистрируйтесь по ссылке.

Вебинар пройдёт — 14 октября 2021, четверг, 12:00
🚀 @SBERLOGA представляет онлайн доклад :
👨‍🔬 Антон Костин (МФТИ) "Биология на графах. Графы 'взаимодействия' генов на основе NLP анализа текстов."
⌚️ Пятница 15 октября, 18.00 по Москве

Рассмотрим корпус биологических текстов по определенной тематике - болезнь Альцгеймера , глиобластома и тд.
Обучим NLP модель (типа word2vec или более продвинутые) на выбранном корпусе.
Возьмем список интересующих нас терминов - например генов.
Рассмотрим эмбединги генов, которые получены данной моделью, построим по ним граф близости.
После этого мы можем анализировать данный граф и пытаться понять насколько он отражает биологическую информацию.
Насколько он зависит от корпуса текстов, насколько кластеры биологически осмысленны, и так далее.
Об этом и будет рассказано. Разобраны ноутбуки, которые делают данное построение.

Доклад является идейным продолжением предыдущего доклада - https://youtu.be/deFlfV3lB50 , https://news.1rj.ru/str/sberloga/66

Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу
🚀 @SBERLOGA онлайн доклад по биоинформатике :
👨‍🔬 Александр Ташкеев (University of Liege, Animal Genomics Lab) "Базовые аспекты производства и моделирования данных РНК-секвенирования одиночных клеток"
⌚️ Пятница 29 октября, 18.00 по Москве

Поговорим про РНК-секвенирование одиночных клеток на примере коммерческого протокола 10x Genomics, самого распространенного на сегодняшний день.
Сначала рассмотрим экспериментальную часть в объеме, нужном для статистического моделирования таких данных и понимания возможных артефактов.
Потом обсудим разные подходы к моделированию - более и менее knowledge-driven, их возможные плюсы и минусы.

Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogabio ближе к началу
🚀 @SBERLOGA онлайн доклад по граф-МЛ:
👨‍🔬 Фёдор Николаев ( Wayne State University, Epistemic AI) "Новые методы поиска сущностей в графах знаний" ("Methods for Ad hoc Entity Retrieval from Knowledge Graphs")
⌚️ Четверг 4 ноября, 19.00 по Москве

В последние годы наблюдается рост популярности графов знаний в различных приложениях, таких как системы извлечения и поиска информации и интеллектуальные помощники. Традиционно извлечение из графов знаний выполняется путем отправки запросов на SPARQL, жестком языке запросов, основанном на тройных шаблонах и логических операциях. В этой работе мы предлагаем несколько подходов к произвольному извлечению сущностей, которые выходят за рамки ограничений этого подхода, позволяя пользователю отправлять запросы с использованием естественного языка в настройках произвольного извлечения, которые стремятся найти конкретные интересующие сущности из графа знаний. Мы предлагаем два новых метода для эффективного ранжирования объектов в таком сценарии. Во-первых, мы предлагаем Parameterized Fielded Term Dependence Models, которые определяют намерение пользователя, стоящее за каждой отдельной концепцией запроса, динамически оценивая его проекцию на поля структурированных представлений сущностей на основе небольшого количества статистических и лингвистических функций. Во-вторых, мы предлагаем Knowledge graph Entity and Word Embedding for Retrieval (KEWER), основанную на случайном блуждании модель встраивания как слов, так и сущностей в одно и то же пространство встраивания, которая позволяет нам вычислять сходство между встраиванием запроса и сущности для сопоставления релевантности в низкоразмерное пространство.

Доклад основан на работах:
http://webpages.eng.wayne.edu/~fn6418/docs/nikolaev-sigir16.pdf, вторая про https://github.com/teanalab/kewer.

Ссылка на зум будет доступна через тг чат https://news.1rj.ru/str/sberlogawithgraphs ближе к началу