Forwarded from 🏆 Data Feeling | AI (Aleron Milenkin)
Девчонки, будьте осторожны!
🤯 Кажется, парни пронюхали, что можно не только для резюме использовать... поэтому уже скоро во всех тиндер профилях)
🧑🔬 На входе очень некачественные разноформатные фотки, но на выходе AI магия 🧙♂️
@avatar_resume_bot
🤯 Кажется, парни пронюхали, что можно не только для резюме использовать... поэтому уже скоро во всех тиндер профилях)
🧑🔬 На входе очень некачественные разноформатные фотки, но на выходе AI магия 🧙♂️
@avatar_resume_bot
🔥7👍5😁4❤1
🚀 @SBERLOGACOMPETE webinar on data science:
👨🔬 Anton Vakhrushev "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems"
⌚️ Monday 11 December 19.00 (Moscow time)
Add to Google Calendar
Gradient Boosted Decision Tree (GBDT) is a widely-used machine learning algorithm that has been shown to achieve state-of-the-art results on many standard data science problems. We are interested in its application to multioutput problems when the output is highly multidimensional. Although there are highly effective GBDT implementations, their scalability to such problems is still unsatisfactory. In this paper, we propose novel methods aiming to accelerate the training process of GBDT in the multioutput scenario. The idea behind these methods lies in the approximate computation of a scoring function used to find the best split of decision trees. These methods are implemented in SketchBoost, which itself is integrated into our easily customizable Python-based GPU implementation of GBDT called Py-Boost. Our numerical study demonstrates that SketchBoost speeds up the training process of GBDT by up to over 40 times while achieving comparable or even better performance.
It easy to install: pip install py-boost
It easy to use - see tutorial notebooks: Kaggle Open problems notebook, Tutorial_1_Basics, Tutorial_2_Advanced_multioutput, Tutorial_3_Custom_features
Github
Paper: Iosipoi, Leonid, and Anton Vakhrushev. "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems." Advances in Neural Information Processing Systems 35 (2022): 25422-25435.
Gold medals on Kaggle: CAFA5 , Open problems - single cell perturbations 2023, Open problems 2022,
Lots of silver/bronze medals in recent Open problems 2023 were based on Pyboost.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: https://news.1rj.ru/str/sberlogacompete/10211, Poster: https://news.1rj.ru/str/sberlogacompete/10215
📹 Video: https://youtu.be/5xRxuDh_cGk
👨🔬 Anton Vakhrushev "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems"
⌚️ Monday 11 December 19.00 (Moscow time)
Add to Google Calendar
Gradient Boosted Decision Tree (GBDT) is a widely-used machine learning algorithm that has been shown to achieve state-of-the-art results on many standard data science problems. We are interested in its application to multioutput problems when the output is highly multidimensional. Although there are highly effective GBDT implementations, their scalability to such problems is still unsatisfactory. In this paper, we propose novel methods aiming to accelerate the training process of GBDT in the multioutput scenario. The idea behind these methods lies in the approximate computation of a scoring function used to find the best split of decision trees. These methods are implemented in SketchBoost, which itself is integrated into our easily customizable Python-based GPU implementation of GBDT called Py-Boost. Our numerical study demonstrates that SketchBoost speeds up the training process of GBDT by up to over 40 times while achieving comparable or even better performance.
It easy to install: pip install py-boost
It easy to use - see tutorial notebooks: Kaggle Open problems notebook, Tutorial_1_Basics, Tutorial_2_Advanced_multioutput, Tutorial_3_Custom_features
Github
Paper: Iosipoi, Leonid, and Anton Vakhrushev. "SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems." Advances in Neural Information Processing Systems 35 (2022): 25422-25435.
Gold medals on Kaggle: CAFA5 , Open problems - single cell perturbations 2023, Open problems 2022,
Lots of silver/bronze medals in recent Open problems 2023 were based on Pyboost.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
📖 Presentation: https://news.1rj.ru/str/sberlogacompete/10211, Poster: https://news.1rj.ru/str/sberlogacompete/10215
📹 Video: https://youtu.be/5xRxuDh_cGk
🔥6👍3❤1
🚀 @SBERLOGACOMPETE webinar on bionformatics and data science:
👨🔬 Дмитрий Руденко, Александр Червов "Обзор прошедшего соревнования "Open Problems – Single-Cell Perturbations""
⌚️ Четверг 20.00 (по Москве) 14 Декабря
Добавить в Гугл календарь
В соревнование требовалось предсказать как под действием лекарств (146 разных) меняются экспрессии генов. Было только две фичи и они категорные - название клеточного типа (6 типов клеток крови) и название лекарств. Это реальные экспериментальные данные полученные по топовым технологиям и стоящие огромных денег (200 тысяч клеток секвинировали мультимодально) - реально cutting-edge research questions. Семплов мало - 600+ в трейне, 255 в тесте, но таргетов было много 18211 (все гены). Удивительно, но особого шейкапа не было, хотя СВ-ЛБ билось плохо и семплов мало. Основные решения строились на PYBOOST и нейронках (удивительно, но нейронки хорошо работают даже при таком малом числе семплов).
Наша команда (Антонина Долгорукова, Дмитрий Руденко, Дмитрий Ершов, Антон Вахрушев, Александр Червов) заняла "счастливое" 13 место - ровно на 1 ниже золота (((((
Но у нас есть шанс еще на приз от экспертов - и ваши апвоуты - нам не помешают:
"U900 team - PYBOOST is what you need"
https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/460858 описание решения и ответы на вопросы оргов. (Ваш альтруизм не будет забыт!)
В данном докладе мы напомним в чем была задача, немного расскажем о подходе на PYBOOST и перейдем к обзору решений других команд.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
PS
Подписывайтесь на канал Дмитрия о дата сайнс и Каггл: https://news.1rj.ru/str/pseudolabeling
📹 Video: https://youtu.be/NvH0tQ4wVxA
📖 Presentations: https://news.1rj.ru/str/sberlogacompete/10469
👨🔬 Дмитрий Руденко, Александр Червов "Обзор прошедшего соревнования "Open Problems – Single-Cell Perturbations""
⌚️ Четверг 20.00 (по Москве) 14 Декабря
Добавить в Гугл календарь
В соревнование требовалось предсказать как под действием лекарств (146 разных) меняются экспрессии генов. Было только две фичи и они категорные - название клеточного типа (6 типов клеток крови) и название лекарств. Это реальные экспериментальные данные полученные по топовым технологиям и стоящие огромных денег (200 тысяч клеток секвинировали мультимодально) - реально cutting-edge research questions. Семплов мало - 600+ в трейне, 255 в тесте, но таргетов было много 18211 (все гены). Удивительно, но особого шейкапа не было, хотя СВ-ЛБ билось плохо и семплов мало. Основные решения строились на PYBOOST и нейронках (удивительно, но нейронки хорошо работают даже при таком малом числе семплов).
Наша команда (Антонина Долгорукова, Дмитрий Руденко, Дмитрий Ершов, Антон Вахрушев, Александр Червов) заняла "счастливое" 13 место - ровно на 1 ниже золота (((((
Но у нас есть шанс еще на приз от экспертов - и ваши апвоуты - нам не помешают:
"U900 team - PYBOOST is what you need"
https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/460858 описание решения и ответы на вопросы оргов. (Ваш альтруизм не будет забыт!)
В данном докладе мы напомним в чем была задача, немного расскажем о подходе на PYBOOST и перейдем к обзору решений других команд.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
PS
Подписывайтесь на канал Дмитрия о дата сайнс и Каггл: https://news.1rj.ru/str/pseudolabeling
📹 Video: https://youtu.be/NvH0tQ4wVxA
📖 Presentations: https://news.1rj.ru/str/sberlogacompete/10469
🔥11❤3👍2🤩1
🚀 NIPS Workshop on Challenge "Open Problems – Single-Cell Perturbations"
"Predict how small molecules change gene expression in different cell types"
⌚️ 16 December 2023 at 13:30-16:30 CST (GMT-6). You can find the schedule and Zoom link on Google Sheets here: https://docs.google.com/spreadsheets/d/19VF9s9jDVE76Hg4wJDi9S8Dg3ZC1E1SAS4sdUazuTWI/edit?usp=sharing
Everyone is invited to attend. Link to information post: https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/461113
NIPS workshop посвященный челенджу "Open Problems – Single-Cell Perturbations" - уже завтра - Суббота.
Наш тим U900 (Антонина Долгорукова, Дмитрий Руденко, Дмитрий Ершов, Антон Вахрушев, Александр Червов)
тоже приглашен и презентует наше решение "PYBOOST - is what you need"
Присоединяйтесь послушать топовых спецов в теме (ну и нас тоже).
"Predict how small molecules change gene expression in different cell types"
⌚️ 16 December 2023 at 13:30-16:30 CST (GMT-6). You can find the schedule and Zoom link on Google Sheets here: https://docs.google.com/spreadsheets/d/19VF9s9jDVE76Hg4wJDi9S8Dg3ZC1E1SAS4sdUazuTWI/edit?usp=sharing
Everyone is invited to attend. Link to information post: https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/461113
NIPS workshop посвященный челенджу "Open Problems – Single-Cell Perturbations" - уже завтра - Суббота.
Наш тим U900 (Антонина Долгорукова, Дмитрий Руденко, Дмитрий Ершов, Антон Вахрушев, Александр Червов)
тоже приглашен и презентует наше решение "PYBOOST - is what you need"
Присоединяйтесь послушать топовых спецов в теме (ну и нас тоже).
🔥7❤1
🚀 Дорогие коллеги, поздравляем всех Вас с наступающим Новым Годом, желаем огромных успехов, здоровья, счастья, удачи во всех начинаниях !
💰 Новый год - время подарков - вот, например, Каггл подарит 50 000$$ тем, кто соберет Кубики Рубика за меньшее число ходов, чем другие участники ежегодного новогоднего соревнования "Santa 2023 - The Polytope Permutation Puzzle - Solve twisty puzzles in the fewest moves".
👛 А мы предлагаем приз в 5000 р тому, кто опубликует публичный ноутбук с решением, который превосходит текущий лучший публичный ноутбук на 5% и расскажет решение на нашем вебинаре. (Если Ваш ноутбук будет лучше на 1% - приз 1000р, 2% - 2000р, 3%-3000р, 4%-4000р. Условия действительны до 7 января). Каггл - лучший способ изучать практический дата-сайнс, именно потому, что люди делятся там своим кодом, идеями. Мы всячески хотели бы поощрять эту активность, надеемся, что наш приз будет этому способствовать.
Комментарии, обсуждения постановки задачи - вы можете найти в нашем чате. Если кратко - то предложен набор позиций многомерных кубиков Рубиков и задача - предъявить наиболее короткую последовательность ходов для их сборки. С точки зрения математики это задача поиска кратчайшего пути на графе Кэли группы движений кубика. Хотя задача и выглядит игровой - она является модельной для многих серьезных проблем в комбинаторной оптимизации, и методы выработанные для ее решения будут полезны для многих практических задач.
💰 Новый год - время подарков - вот, например, Каггл подарит 50 000$$ тем, кто соберет Кубики Рубика за меньшее число ходов, чем другие участники ежегодного новогоднего соревнования "Santa 2023 - The Polytope Permutation Puzzle - Solve twisty puzzles in the fewest moves".
👛 А мы предлагаем приз в 5000 р тому, кто опубликует публичный ноутбук с решением, который превосходит текущий лучший публичный ноутбук на 5% и расскажет решение на нашем вебинаре. (Если Ваш ноутбук будет лучше на 1% - приз 1000р, 2% - 2000р, 3%-3000р, 4%-4000р. Условия действительны до 7 января). Каггл - лучший способ изучать практический дата-сайнс, именно потому, что люди делятся там своим кодом, идеями. Мы всячески хотели бы поощрять эту активность, надеемся, что наш приз будет этому способствовать.
Комментарии, обсуждения постановки задачи - вы можете найти в нашем чате. Если кратко - то предложен набор позиций многомерных кубиков Рубиков и задача - предъявить наиболее короткую последовательность ходов для их сборки. С точки зрения математики это задача поиска кратчайшего пути на графе Кэли группы движений кубика. Хотя задача и выглядит игровой - она является модельной для многих серьезных проблем в комбинаторной оптимизации, и методы выработанные для ее решения будут полезны для многих практических задач.
🔥13❤5👍3
Forwarded from Бластим: курсы и работа в биотехе
19 января 19:00 мск мы проведем эксперимент в реальном времени и посмотрим, сможет ли чат-бот воспроизвести или в точности повторить результат труда биоинформатика. Рабочий кейс — сингл селл колоректального рака. Попробуем цикл от контроля качества до оценки лиганд-рецепторных взаимодействий! Настоящая импровизация шаг за шагом.
Наш спикер Дмитрий Тычинин будет модерировать работу чата и экспертно оценивать преимущества и недостатки ответов на вопросы, возникающие у людей, которые работают с single cell данными. Кроме того, на мастер-классе любые вопросы аудитории получат ответы в двойном объеме: и от ИИ, и от человека!
И с нетерпением ждем следующую пятницу!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10😁5❤4
Ваш шанс воплотить научные амбиции в жизнь вместе с ИТМО!
Передовая инженерная школа ИТМО объявляет уникальный набор научных коллективов для получения грантов на открытие собственных магистратур, лабораторий, а также развитие продуктов и их интеграцию в компании.
— Мечтаете о собственной магистратуре?
— Планируете основать научную лабораторию?
— Мыслите масштабно и хотите создать научно-образовательный центр?
— Хотите выйти в индустрию и работать с бизнесом?
ПИШ ИТМО готов системно поддерживать и инвестировать в вас до 50 миллионов рублей!
Подавайте заявку до 30 января включительно 👉🏻 https://pish.itmo.ru/domen
Передовая инженерная школа ИТМО объявляет уникальный набор научных коллективов для получения грантов на открытие собственных магистратур, лабораторий, а также развитие продуктов и их интеграцию в компании.
— Мечтаете о собственной магистратуре?
— Планируете основать научную лабораторию?
— Мыслите масштабно и хотите создать научно-образовательный центр?
— Хотите выйти в индустрию и работать с бизнесом?
ПИШ ИТМО готов системно поддерживать и инвестировать в вас до 50 миллионов рублей!
Подавайте заявку до 30 января включительно 👉🏻 https://pish.itmo.ru/domen
👍5🔥4😁4❤2
Уважаемые коллеги !
🚀 Сообщество админов научно-образовательных каналов во главе с админами каналов: «Наука и университеты» и «Кипящий МИФИ» сформировали папку каналов о науке и образовании.
❗️Собраны отличные каналы ! Вам остается только перейти по ссылке и сохранить папку или её часть себе.
https://news.1rj.ru/str/addlist/tmcQOBSpVmo4MzU6
🚀 Сообщество админов научно-образовательных каналов во главе с админами каналов: «Наука и университеты» и «Кипящий МИФИ» сформировали папку каналов о науке и образовании.
❗️Собраны отличные каналы ! Вам остается только перейти по ссылке и сохранить папку или её часть себе.
https://news.1rj.ru/str/addlist/tmcQOBSpVmo4MzU6
Telegram
Наука и университеты
Актуальные новости в сфере науки и образования
Контакты @nauka2030 почта: naukauniver@gmail.com
Регистрация в РКН: https://clck.ru/3EiMZ3
Контакты @nauka2030 почта: naukauniver@gmail.com
Регистрация в РКН: https://clck.ru/3EiMZ3
👍4
🚀 @SBERLOGACOMPETE webinar on data science:
👨🔬 Dmitrii Rudenko "Introduction to the Kaggle competition 'HMS - Harmful Brain Activity Classification'"
⌚️Friday, 2 Febraury, 20.00 (Moscow time)
Add to Google Calendar. (The talk will be in English). Announcement on Kaggle
Вкатываемся в новое соревнование по определению патернов работы мозга: HMS - Harmful Brain Activity Classification
Цель соревнования- по данным ЭЭГ пациентов понять, что иэ мозг работает некорректно. В этом соревновании доступно целых две модальности: спектрограммы работы и сырые сигналы, на которые вполне себе тоже можно учить нейросетки. Самих данных 26 гб, что тоже не мало.
Разметка таких снимков работы мозга требует дорогого обучения специалистов и их напряженной работы, так что если удастся хорошо решать задачу- то и пропускная способность специалистов вырастет. В датасете отрывки каждого снимка показывали множеству экспертов, и каждый эксперт голосовал за тип аномальной активности. Кстати их тут всего 6:
1. seizure (SZ). На русский корректнее всего переводится как 'припадок'
2. generalized periodic discharges (GPD) и lateralized periodic discharges (LPD)- регулярные конвульсии
3. ateralized rhythmic delta activity (LRDA) и generalized rhythmic delta activity (GRDA) - дельта активность. Обычно она максимально выражена во время сна и если у человека высокая дельта-активность во время бодрствования- что-то идет не так.
4. И вполне себе привычные каглерам 'прочее'
Метрика- KL-дивергенция, т.к. по отрывкам голосвали разные эксперты и у нас есть целое распределение таргетов.
Соревнование Kernel Only, так что придется азпихивать инференс внутрь пайплайна на каггле. Но результаты будут сразу после конца соревнования, так что интрига быстро разрешится.
На соревнование еще два месяца, так что лб не плотный: с топового паблик кернела можно залететь аж в серебро. Многое еще изменится и Крис Дейот уже присоединился к сореве
Подписывайтесь на канал докладчика - https://news.1rj.ru/str/pseudolabeling - о дата сайнс.
📖 Presentation
📹 Video
👨🔬 Dmitrii Rudenko "Introduction to the Kaggle competition 'HMS - Harmful Brain Activity Classification'"
⌚️Friday, 2 Febraury, 20.00 (Moscow time)
Add to Google Calendar. (The talk will be in English). Announcement on Kaggle
Вкатываемся в новое соревнование по определению патернов работы мозга: HMS - Harmful Brain Activity Classification
Цель соревнования- по данным ЭЭГ пациентов понять, что иэ мозг работает некорректно. В этом соревновании доступно целых две модальности: спектрограммы работы и сырые сигналы, на которые вполне себе тоже можно учить нейросетки. Самих данных 26 гб, что тоже не мало.
Разметка таких снимков работы мозга требует дорогого обучения специалистов и их напряженной работы, так что если удастся хорошо решать задачу- то и пропускная способность специалистов вырастет. В датасете отрывки каждого снимка показывали множеству экспертов, и каждый эксперт голосовал за тип аномальной активности. Кстати их тут всего 6:
1. seizure (SZ). На русский корректнее всего переводится как 'припадок'
2. generalized periodic discharges (GPD) и lateralized periodic discharges (LPD)- регулярные конвульсии
3. ateralized rhythmic delta activity (LRDA) и generalized rhythmic delta activity (GRDA) - дельта активность. Обычно она максимально выражена во время сна и если у человека высокая дельта-активность во время бодрствования- что-то идет не так.
4. И вполне себе привычные каглерам 'прочее'
Метрика- KL-дивергенция, т.к. по отрывкам голосвали разные эксперты и у нас есть целое распределение таргетов.
Соревнование Kernel Only, так что придется азпихивать инференс внутрь пайплайна на каггле. Но результаты будут сразу после конца соревнования, так что интрига быстро разрешится.
На соревнование еще два месяца, так что лб не плотный: с топового паблик кернела можно залететь аж в серебро. Многое еще изменится и Крис Дейот уже присоединился к сореве
Подписывайтесь на канал докладчика - https://news.1rj.ru/str/pseudolabeling - о дата сайнс.
📖 Presentation
📹 Video
👍15
Привет, Друзья!!
Мы рады сообщить вам, что у нас есть специальный канал, где вы можете найти актуальные вакансии, а также разместить своё резюме.
Присылай свои CV с указанием области интересов, попробуем помочь Вам найти интересную работу.
Уважаемый HR-ы, также ожидаем и вашего активного участия 😊
Контакт @Zabis13
Мы рады сообщить вам, что у нас есть специальный канал, где вы можете найти актуальные вакансии, а также разместить своё резюме.
Присылай свои CV с указанием области интересов, попробуем помочь Вам найти интересную работу.
Уважаемый HR-ы, также ожидаем и вашего активного участия 😊
Контакт @Zabis13
👍5
🚀 @SBERLOGABIO:
👨🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
⌚️ Четверг 15 Февраля 19.00 (по Москве)
Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.
Задача CAFA ( Critical Assessment of Function Annotation ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.
Решение
Идея 1. Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.
Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer). Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.
И еще множество других идей (см. write-up).
📖 Presentations: https://news.1rj.ru/str/sberlogabio/68835
📹 Video: https://youtu.be/FJThflSagQY
👨🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
⌚️ Четверг 15 Февраля 19.00 (по Москве)
Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.
Задача CAFA ( Critical Assessment of Function Annotation ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.
Решение
Идея 1. Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.
Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer). Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.
И еще множество других идей (см. write-up).
📖 Presentations: https://news.1rj.ru/str/sberlogabio/68835
📹 Video: https://youtu.be/FJThflSagQY
🔥22❤2🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
На гифе - процесс сборки многослойного кубика Рубика за 2869 ходов.
🚀 @SBERLOGACOMPETE webinar on mathematics and data science:
👨🔬 V. Shitov, P.Snopov, A.Chervov "Теория групп, пазлы Рубика и Каггл соревнование Санта23"
⌚️ Пятница 16 февраля 2024, 19.00 (по Москве)
Add to Google Calendar
Постановка задачи.
На задачу можно смотреть как минимум четырьмя способами 1) даны разобранные состояние пазлов типа многомерного кубика Рубика - надо предъявить последовательность ходов сборки - у кого меньше тот и выиграет 2) Даны два вектора v1, v2 - предъявить последовательность матриц из фиксированного набора так чтобы v2 = M_1M_2M_3 .. M_n v1 ( у кого короче - тот и выиграл) 3) Аналогично с заменой матриц на перестановки 4) Поиск наиболее короткого пути на графе между двумя вершинами - только граф может быть такой, что число вершин в нем больше чем атомов во вселенной.
Теория групп. И подходы к решениям.
Мы обсудим разные взгляды на эту задачу и разные способы ее решать.
Поговорим о простых трюках из теории групп, которые позволили написать хороший оптимизатор публичных решений. Обсудим идею в основе топовых решений и как её можно улучшить
Подходы через MILP ( смешенное целочисленно-линейное программирование) и реинфорсмент ленинг.
Расскажем про постановку задачи как задачи целочисленного программирования и (если останется время, немного расскажу про RL подход в соревновании)
Нерешенные математические проблемы .
В теории групп много гипотез над которыми думают лучшие умы такие как Т.Тао (См. например обзор Хельфгота Growth and expansion in algebraic groups over finite fields https://arxiv.org/abs/1902.06308) - на языке пазлов - эти гипотезы содержат оценки для "числа Бога" - наименьшего количества ходов сборки пазла, отметим что это число неизвестно науке уже для кубика 4х4х4. Мы планируем обсудить подходы к подобным вопросам через машин ленинг на этом и последующих вебинарах.
📖 Presentations: https://news.1rj.ru/str/sberlogacompete/14423
📹 Video: https://youtu.be/aoKzd8snKLE?si=47QZqtP85JsxkfTL
🚀 @SBERLOGACOMPETE webinar on mathematics and data science:
👨🔬 V. Shitov, P.Snopov, A.Chervov "Теория групп, пазлы Рубика и Каггл соревнование Санта23"
⌚️ Пятница 16 февраля 2024, 19.00 (по Москве)
Add to Google Calendar
Постановка задачи.
На задачу можно смотреть как минимум четырьмя способами 1) даны разобранные состояние пазлов типа многомерного кубика Рубика - надо предъявить последовательность ходов сборки - у кого меньше тот и выиграет 2) Даны два вектора v1, v2 - предъявить последовательность матриц из фиксированного набора так чтобы v2 = M_1M_2M_3 .. M_n v1 ( у кого короче - тот и выиграл) 3) Аналогично с заменой матриц на перестановки 4) Поиск наиболее короткого пути на графе между двумя вершинами - только граф может быть такой, что число вершин в нем больше чем атомов во вселенной.
Теория групп. И подходы к решениям.
Мы обсудим разные взгляды на эту задачу и разные способы ее решать.
Поговорим о простых трюках из теории групп, которые позволили написать хороший оптимизатор публичных решений. Обсудим идею в основе топовых решений и как её можно улучшить
Подходы через MILP ( смешенное целочисленно-линейное программирование) и реинфорсмент ленинг.
Расскажем про постановку задачи как задачи целочисленного программирования и (если останется время, немного расскажу про RL подход в соревновании)
Нерешенные математические проблемы .
В теории групп много гипотез над которыми думают лучшие умы такие как Т.Тао (См. например обзор Хельфгота Growth and expansion in algebraic groups over finite fields https://arxiv.org/abs/1902.06308) - на языке пазлов - эти гипотезы содержат оценки для "числа Бога" - наименьшего количества ходов сборки пазла, отметим что это число неизвестно науке уже для кубика 4х4х4. Мы планируем обсудить подходы к подобным вопросам через машин ленинг на этом и последующих вебинарах.
📖 Presentations: https://news.1rj.ru/str/sberlogacompete/14423
📹 Video: https://youtu.be/aoKzd8snKLE?si=47QZqtP85JsxkfTL
🔥22❤5👍3🤩1
🚀 Субботний нетворкинг.
Позвольте порекомендовать Вам замечательные каналы, которые мы сами читаем сами и рекомендуем Вам:
@ivoryzoo - легендарный канал - "Зоопарк" держит руку на пульсе всего, что происходит в науке и образовании. Как им вообще удается отслеживать столько информации ?
@dealerAI - от одного из лучших специалистов в дата-сайнс и natural language processing - вы узнаете ключевые новости по этим темам
@datastorieslanguages - от не менее замечательного специалиста по дата сайнс, каггл грандмастера и полиглота Андрея Лукьяненко, вы узнаете все не только о дата сайнс, но и о том как изучать иностранные языки и о некоторых аспектах жизни за границей
@smart_lab_news @Nano_by_Nano @Polymer_scientists - Новости биотеха: научные события, конкурсы, конференции, гранты, вакансии и др. От научной группы ИБХФ РАН под руководством Елены Никольской
@finitely_presented - Теория групп, дата-сайнс и все вокгруг от нашего докладчика П.Снопова.
@diagrams_every_day - совершенно замечательный молодой канал - интереснейшие визуализации и объяснения простыми словами современных концепций в физике и математике - кто любит эти науки - обязательно подписывайтесь !
Подписывайтесь на эти замечательные каналы (и не забывайте о нас, Ваша @sberlogabig ) !
Позвольте порекомендовать Вам замечательные каналы, которые мы сами читаем сами и рекомендуем Вам:
@ivoryzoo - легендарный канал - "Зоопарк" держит руку на пульсе всего, что происходит в науке и образовании. Как им вообще удается отслеживать столько информации ?
@dealerAI - от одного из лучших специалистов в дата-сайнс и natural language processing - вы узнаете ключевые новости по этим темам
@datastorieslanguages - от не менее замечательного специалиста по дата сайнс, каггл грандмастера и полиглота Андрея Лукьяненко, вы узнаете все не только о дата сайнс, но и о том как изучать иностранные языки и о некоторых аспектах жизни за границей
@smart_lab_news @Nano_by_Nano @Polymer_scientists - Новости биотеха: научные события, конкурсы, конференции, гранты, вакансии и др. От научной группы ИБХФ РАН под руководством Елены Никольской
@finitely_presented - Теория групп, дата-сайнс и все вокгруг от нашего докладчика П.Снопова.
@diagrams_every_day - совершенно замечательный молодой канал - интереснейшие визуализации и объяснения простыми словами современных концепций в физике и математике - кто любит эти науки - обязательно подписывайтесь !
Подписывайтесь на эти замечательные каналы (и не забывайте о нас, Ваша @sberlogabig ) !
👍12❤2