Sberloga – Telegram
Sberloga
2.49K subscribers
219 photos
34 videos
7 files
255 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
От Ирины Князевой ( @Isknyazeva ):

Всех приветствую. Моя студентка занимается социальным проектом, цитирую: "Я сейчас занимаюсь социальным проектом для подбора наставников подросткам из небольших городов России, и к нам пришло несколько ребят, которые хотят развиваться в аналитике данных, ИИ и в больших данных. Загруженность там маленькая, онлайн-созвоны по часу в неделю, но их опыт очень помог бы детям 🙂" Если вдруг у кого появится желание поучаствовать или привлечь студентов - напишите мне, буду очень благодарна.

PS
Кстати, лишний повод вспомнить о замечательном докладе Ирины:
https://youtu.be/7X4gS56MMxM
🚀 Онлайн event по ML/DS от "SBERLOGA"
Понельник 1 февраля, 19.00 по Москве
👨‍🔬 Совместное обсуждение ODS
курса : "Графы знаний" (Knowledge Graphs) от Михаила Галкина и К

Смотрим лекцию 2 "RDF & RDFS & OWL" https://youtu.be/s7zpHzVp8Ik
Вначале собираемся в зуме, смотрим первый фргамент лекции, останваливаем просмотр, обсуждаем 5-7 минут, смотрим следующий фрагмент и так далее.

Присоединяйтесь к тг чату @kg_course для дополнительноной информации и получения ссылки на зум. Анонс курса : https://youtu.be/L5LPxpM1srA

Сайт курса:
https://ods.ai/tracks/kgcourse2021
🚀 Онлайн семинар по ML/DS от "SBERLOGA"
Четверг 4 февраля, 19.00 по Москве
👨‍🔬 Доклад Сергей Иванов (Париж, Критео) : "Boost then Convolve: Gradient Boosting Meets Graph Neural Networks" . Cергей один из лидеров графового комьюнити в ОДС и автор лучшего канала в тг по граф-мл @graphML - подписывайтесь.

Абстракт.
Graph neural networks (GNNs) are powerful models that have been successful in various graph representation learning tasks. Whereas gradient boosted decision trees (GBDT) often outperform other machine learning methods when faced with heterogeneous tabular data. But what approach should be used for graphs with tabular node features? Previous GNN models have mostly focused on networks with homogeneous sparse features and, as we show, are suboptimal in the heterogeneous setting. In this work, we propose a novel architecture that trains GBDT and GNN jointly to get the best of both worlds: the GBDT model deals with heterogeneous features, while GNN accounts for the graph structure. Our model benefits from end-to-end optimization by allowing new trees to fit the gradient updates of GNN. With an extensive experimental comparison to the leading GBDT and GNN models, we demonstrate a significant increase in performance on a variety of graphs with tabular features.

Доклад основан на работе:
https://openreview.net/forum?id=ebS5NUfoMKL

Ссылка на зум будет доступна ближе к началу доклада через чат @sberlogawithgraphs - присоединяйтесь.
Записи докладов на ютубе:
https://www.youtube.com/c/SBERLOGA - подписывайтесь.
Друзья!

Каналы по датасайнс от участников @sberloga, присоединяйтесь, будет интересно:

@datainthecity Инесса (@intra23) ведёт уникальный канал - анализ данных в городах

@start_ds Роман (@RAVasiliev) делится полезными материалами для подготовки к собеседованиям в ДС

@dataviznews Никита (@nikitarokotyan) рассказывает о визуализации данных

@botka_chronics Алексей (@shpacman) о математике в ДС

@moir_x Мария ( @izomeraz4 ) дата инжениринг , математика , ДС

@data_events Николай (@NikolayKrupiy) держит в курсе ДС (и других data-тематических) событий в Москве и онлайне

@sv9t_channel Святослав ( @IggiSv9t) лучший канал в тг по ДС, графам , визуализациям

Присоединяйтесь @sberlogawithgraphs, @sberlogadataclub расскажите о ваших ДС каналах, проектах, интересах, мы рады всем хорошим ДС-людям. Взгляните в @sberlogajobs - отборные вакансии в ДС
Ребята, совместное прохождение курса по Knowledge Graphs в самом разгаре.
Уже сейчас были разобраны первые 2 лекции этого курса, обсуждение можно посмотреть на нашем youtube канале SBERLOGA:
Обсуждение Лекции 1
Обсуждение Лекции 2 (В обсуждении Лекции 2 на вопросы отвечает автор курса - Михаил Галкин)

Курс можно проходить в режиме self paced (в комфортной для вас скоростью)
Но если у вас появятся вопросы или захотите присоединиться к обсуждениям то у нас есть отдельный чатик по Knowledge graphs
В понедельник будет обсуждение дз и прошедших лекций по курсу

Приятного просмотра!
@sberloga
Ребята, 4 дня назад у нас прошла лекция Сергея Иванова (Париж, Критео) "Boost then Convolve: Gradient Boosting Meets Graph Neural Networks"
Cергей один из лидеров графового комьюнити в ODS и автор лучшего канала в тг по граф-мл  @graphML

Видео можно посмотреть на нашем youtube канале SBERLOGA
https://youtu.be/rMNA68wLAxk

Доклад основан на работе https://openreview.net/forum?id=ebS5NUfoMKL

Графовые нейронные сети (GNN) - это мощные модели, успешно решающие различные задачи обучения графического представления. В тоже время градиентный бустинг на деревьях (GBDT) часто превосходит другие методы машинного обучения при работе с табличными данными. Но какой подход следует использовать для графов с табличными характеристиками узлов? Предыдущие модели GNN в основном фокусировались на сетях с однородными разреженными фичами и, как мы покажем, неоптимальны в гетерогенном пространстве. В этой работе мы предлагаем новую архитектуру, которая обучает GBDT и GNN совместно, чтобы получить лучшее из обоих миров: модель GBDT имеет дело с гетерогенными фичами, а GNN учитывает структуру графа. Наша модель выигрывает от сквозной оптимизации, позволяя новым деревьям соответствовать обновлениям градиента GNN. Проведя обширное экспериментальное сравнение с ведущими моделями GBDT и GNN, мы демонстрируем значительное улучшение производительности на различных графах с табличными фичами.

Приятного просмотра!
@sberloga
🚀 Онлайн семинар по ML/DS от "SBERLOGA"
Четверг 11 февраля, 19.00 по Москве
👨‍🔬 Доклад Людмила Прохоренкова (Yandex Research)
“Графовые методы поиска ближайших соседей”

Абстракт.
Среди методов поиска ближайших соседей в последнее время стали популярны алгоритмы, основанные на графах близости. Оказалось, что в практических задачах такие методы работают лучше, чем многие давно известные и хорошо изученные подходы. Я расскажу про то, как устроен поиск на графах, как построить подходящий граф, как масштабировать поиск на очень большие датасеты, какие есть теоретические гарантии для графовых методов и еще про некоторые интересные работы в этой области.

Ссылка на зум будет доступна ближе к началу доклада через чат @sberlogawithgraphs - присоединяйтесь.
Записи докладов на ютубе:
https://www.youtube.com/c/SBERLOGA - подписывайтесь.

PS
Будут обсуждаться в том числе следующие работы:
Graph-based nearest neighbor search: From practice to theory http://proceedings.mlr.press/v119/prokhorenkova20a/prokhorenkova20a.pdf

Efficient and robust approximate nearest neighbor search using hierarchical navigable small world graphs https://arxiv.org/ftp/arxiv/papers/1603/1603.09320.pdf

ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms https://arxiv.org/pdf/1807.05614.pdf

Disorder Inequality: A Combinatorial Approach to Nearest Neighbor Search http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.116.2680&rep=rep1&type=pdf

Improving Approximate Nearest Neighbor Search through Learned Adaptive Early Termination https://conglongli.github.io/paper/ann-sigmod2020.pdf
🚀 Онлайн семинар по ML/DS от "SBERLOGA"
⌚️ Четверг 18 февраля, 19.00 по Москве
👨‍🔬 "Jounral club (Short talk club)" Семинар с несколькими короткими (10-15 минут) докладами.

Богдан Салып
"Удачные и неудачные попытки удержать GPT" LogitProcessors в HuggingFace, форсированная генерация слов, GPT+NER, GPT+USE, настройка датасета под ключевые слова и куда двигаться дальше

Глеб Ерофеев (Lead ML Sbermarket)
"ML Хакатон-страйк"
Поделиться опытом как преуспеть в хакатонах.

Никита Варганов, Юрий Барамыков (Сбер)
Это команда Optimization Guys. Мы расскажем про наш опыт участия в хакатоне от ODS. Наша команда разрабатывала AutoML for dummies - AutoML решение для людей, которые не умеют программировать и вообще не разбираются в анализе данных. Юра расскажет про команду и процесс написания AutoML, а Никита расскажет про фреймворк streamlit - простейшее решение для создания web-приложений для работы с данными.

Ссылка на зум будет доступна ближе к началу доклада в чате @sberlogadataclub
Записи докладов смотрите на ютубе канале SBERLOGA

Приятного просмотра!
@sberloga
Сегодня 22.02.2021 , в 19:00 по Москве продолжаем смотреть и обсуждать Лекцию #3 KnowledgeGraph-курса. Будут обсуждаться - B-tree, B+tree, LSM-tree - для организации хранения графовых бд.
Ссылка на зума, как обычно, будет в чате @kg_course перед началом.

Напомним кратко прошедшую часть лекции. Она была посвящена SPARQL - языку запросов к графовым бд. Это не так сложно - взгляните на примеры:

SELECT ?s WHERE { ?s :knows ?Alice .}
# найти всех кто знает Алису

select (count(*) as ?num) where {?s ?p ?o}
# Найти количество триплетов (ребер) в графе знаний

Наиболее доступный и известный всем граф знаний - Wikidata - уже содержит 12 098 892 788 ребер (="триплетов", = "фактов"). По ссылке https://query.wikidata.org/ вы можете прямо сейчас написать запрос и получить ответ. Обратите внимание на вкладку EXAMPLES - примеры запросов на все случае жизни. Хотите найти лекарства, которые воздействуют на гены связанные с пролиферацией в клетке ? Смотрите в EXAMPLES.
ПС
Видео записей смотрите на нашем Ютуб канале SBERLOGA
🚀 Онлайн семинар по ML/DS от "SBERLOGA"
⌚️ Четверг 25 февраля, 19.00 по Москве
👨‍🔬 "Машинное обучение и анализ мутаций SNP" Валерий Хаменя (@khamenya), Михаил Косарецкий (@cappelchi).
Первая часть обсуждения - Машинное обучение и анализ мутаций SNP

Ребята нам расскажут:
1️⃣ Как подступиться к файлам со снипами *.vcf и получать из них тензор. Акцент будет на очень важном one-hot-encoded (OHE) представлении для снипов. Без такого тензора считать условные вероятности будет очень тяжело.

2️⃣ Как из OHE-тензора строить иерархический остов вероятностного графа для снипов — @ostroumovala

3️⃣ Как сделать нечто любопытное ещё до того, как у нас готов граф. Например, нащупать супер-хабы — локус-варианты, которые вероятностно связаны почти с каждым четвёртым локус-вариантом.

❤️ Самое главное: ищем кто хотел бы поучаствовать. У нас не хватает ни рук, ни времени. Мы очень надеемся, что появятся новые участники в этой дискуссии! Вам будут особенно рады если вы спец по оптимизации простых алгебраических тензорных операций для GPU/TPU + PyTorch/Tensorflow.

💌 Если есть какие-то вопросы/пожелания, то можно обращаться в личку к @cappelchi и @khamenya до и после доклада!

Ссылка на зум будет доступна ближе к началу доклада в чате @sberlogabio
Записи докладов смотрите на ютубе канале SBERLOGA
🔥Ребята,
Выложили видео с прошедшего семинара 18 февраля

1️⃣ Никита Варганов, Юрий Барамыков (Сбер)
"CraftML - AutoML for dummies"
Это команда Optimization Guys. Мы расскажем про наш опыт участия в хакатоне от ODS. Наша команда разрабатывала AutoML for dummies - AutoML решение для людей, которые не умеют программировать и вообще не разбираются в анализе данных. Юра расскажет про команду и процесс написания AutoML, а Никита расскажет про фреймворк streamlit - простейшее решение для создания web-приложений для работы с данными.
https://youtu.be/U1LU_HzeMd0

2️⃣ Глеб Ерофеев (Lead ML Sbermarket)
"ML Хакатон-страйк"
Поделиться опытом как преуспеть в хакатонах.
https://youtu.be/3ge3LvTR2Eg

3️⃣ Богдан Салып
"Удачные и неудачные попытки удержать GPT" LogitProcessors в HuggingFace, форсированная генерация слов, GPT+NER, GPT+USE, настройка датасета под ключевые слова и куда двигаться дальше
https://youtu.be/lM6a9e1t-mA

Приятного просмотра!
@sberloga
Ребята,

В прошлый понедельник мы подробно разбирали нюансы хранения графов знаний и рассмотрели такие базовые для хранения больших объемов информации структуры как B+дерево и LSM деревья.
Посмотреть обсуждение

А сегодня вечером приступим к разбору четвертой лекции из курса Knowledge Graphs.
В этот раз мы подступимся к процессу реификации, который заключается в описании высказываний внутри графов знаний с помощью других высказываний из этиих же графов. Реификацию можно выполнять разными способами в зависимости от внутреннего устройства графа знаний.

Вторая тема разбора - внутреннее устройство wikidata. Посмотрим на то, как организован граф, на основе которого работает значительная часть wikipedia - типы сущностей и связи между ними.

Ссылка на zoom появится в чате курса (@kg_course) и канале в ODS непосредственно перед стартом в 19:00 МСК.
🚀 Онлайн семинар по ML/DS от "SBERLOGA"
⌚️ Четверг 4 марта, 19.00 по Москве
👨‍🔬 Антон Цицулин "Расстояние между графами"

Как сравнить структуру двух графов? Я расскажу про то, какие подходы существуют к сравнению графов и разберу подходы из разных семейств – графовые ядра, спектральные подходы и современные deep learning методы.

Доклад будет основан на следующих работах:
Statistics: https://arxiv.org/abs/1209.2684
Graph kernels: https://arxiv.org/abs/1903.11835
Spectral methods: https://arxiv.org/abs/1805.10712 https://arxiv.org/abs/2003.01282
Deep learning: https://arxiv.org/abs/1904.09671 https://arxiv.org/abs/1908.01000

Reviews: https://arxiv.org/abs/2008.02415 https://arxiv.org/abs/1904.07414

Ссылка на зум будет доступна ближе к началу доклада в чате @sberlogawithgraphs
Записи докладов смотрите на ютубе канале SBERLOGA
https://www.youtube.com/c/SBERLOGA
Ребята,

К нам тут набежали рекрутеры из Сбера и Яндекса и оставили много вкусных вакансий от Middle до Lead позиции на разные направления ML
Переходи по ссылке и попробуй себя в новой роли
@sberlogajobs
Ребята,

Позавчера случилось знаменательное событие - открытой библиотеке для обработки естественного языка DeepPavlov, 5 февраля исполнилось 3 года!
Было много интересных докладов https://deeppavlov.ai/events/3year
Трансляцию можно посмотреть тут https://youtu.be/LkvioWrgo5E
Ребята обещали в течении недели всю ее нарезать и выложить на свой канал 👍
Но а я, как человек который в очередной раз все пропустил, начну смотреть в "режиссерской" версии 😅

@sberloga
♥️ Дорогие девушки, с прекраснным весенним праздником 8 марта !Действительно круто что все больше представительниц прекрасного пола в сфере IT и Data Science! ♥️

Мы долго пытались придумать оригинальное поздравление, и привлекли на помощь всю мощь нейронных сетей GPT3🤖
Много ждать не стоит, но повеселят они вас точно 🤣

Попытать удачу можно тут: https://yandex.ru/lab/postcard

@sberloga