💥 Всем привет!
Приглашаем вас 2 декабря на лекцию по теме “Введение в дизайн контролируемых АБ экспериментов”!
🎙 Спикер:
Николай Войтов - Product owner @ SberAds.
🟠 На примерах из практики поговорим, зачем нужны АА и АБ тесты, как равномерно делить их участников, а также применение ML методов для их оценки.
🟠 Вы узнаете, как формулировать и тестировать продуктовые гипотезы, чтобы принимать обоснованные решения на основе данных.
🟠 Обсудим смысл "статистической значимости" и её роли в интерпретации результатов экспериментов.
🟠 Рассмотрим ключевые виды логических ошибок, их примеры и способы их предотвращения.
🗓 Дата: 2 декабря (понедельник), 19:00
🔗 Ссылка на регистрацию
👉🏻https://vk.com/away.php?to=https%3A%2F%2Fdocs.google.com%2Fforms%2Fd%2Fe%2F1FAIpQLSdFXw_c2DOYmxyb5Jr3CirR7ThaJz99tingEWAeqXaUur21jQ%2Fviewform%3Fusp%3Dsf_link&utf=1
❗️Внимание! Для гостей НЕ из РЭУ регистрация закрывается 1 декабря в 23:59 ❗️
Аудитория будет указана в комментариях
Ждем вас! 🧡
Приглашаем вас 2 декабря на лекцию по теме “Введение в дизайн контролируемых АБ экспериментов”!
🎙 Спикер:
Николай Войтов - Product owner @ SberAds.
🟠 На примерах из практики поговорим, зачем нужны АА и АБ тесты, как равномерно делить их участников, а также применение ML методов для их оценки.
🟠 Вы узнаете, как формулировать и тестировать продуктовые гипотезы, чтобы принимать обоснованные решения на основе данных.
🟠 Обсудим смысл "статистической значимости" и её роли в интерпретации результатов экспериментов.
🟠 Рассмотрим ключевые виды логических ошибок, их примеры и способы их предотвращения.
🗓 Дата: 2 декабря (понедельник), 19:00
🔗 Ссылка на регистрацию
👉🏻https://vk.com/away.php?to=https%3A%2F%2Fdocs.google.com%2Fforms%2Fd%2Fe%2F1FAIpQLSdFXw_c2DOYmxyb5Jr3CirR7ThaJz99tingEWAeqXaUur21jQ%2Fviewform%3Fusp%3Dsf_link&utf=1
❗️Внимание! Для гостей НЕ из РЭУ регистрация закрывается 1 декабря в 23:59 ❗️
Аудитория будет указана в комментариях
Ждем вас! 🧡
❤9
Всем привет! В этом посте мы разберем пару вопросов с DS собеседований!
❓ Где градиент в градиентом бустинге?
Градиентный бустинг — это мощный ансамблевый метод, который использует последовательное добавление деревьев решений для улучшения предсказательной способности модели. Он работает по принципу "учимся на своих ошибках": каждое новое дерево фокусируется на ошибках, допущенных предыдущими деревьями.
Как это происходит?
🔸 Инициализация. Начинаем с базовой модели, которая, например, может быть просто средним значением целевой переменной (конечно, модель может быть и более сложной).
🔸 Вычисление остатков. На каждом шаге мы вычисляем остатки — антиградиент функции потерь относительно текущих предсказаний. Это демонстрирует направление, в котором нужно изменить предсказание, чтобы минимизировать функцию потерь.
🔸 Построение деревьев. На каждом шаге создаётся новое дерево решений, обучающееся на остатках предыдущей модели. Таким образом, новое дерево пытается "исправить" ошибки, сделанные предшествующими деревьями.
🔸 Обновление предсказаний. После того, как новое дерево обучено, его предсказания добавляются к текущим, предварительно домножаясь на некоторый коэффициент (learning rate), контролирующий скорость обучения.
🔸 Переход к следующей итерации. Процесс повторяется: на каждом шаге мы вычисляем новые остатки, строим новые деревья и обновляем предсказания до тех пор, пока не достигнем заданного числа деревьев или не будет достигнут критерий остановки, например, когда улучшения в качестве модели станут незначительными.
То есть такой итеративный метод основан на градиентах, что и даёт ему имя. Каждый новый шаг делает модель всё более точной, и окончательная комбинация всех деревьев позволяет минимизировать ошибки.
❓ Как считается площадь под кривой ROC?
ROC-кривая (Receiver Operating Characteristic) - одна из самых важных метрик для оценки бинарных классификаторов. ROC-кривая показывает, как соотносятся TPR (True Positive Rate — доля положительных объектов, правильно предсказанных положительными) и FPR (False Positive Rate - доля отрицательных объектов, неправильно предсказанных положительными) при различных порогах вероятности классификации.
Но самое интересное — это площадь под ROC-кривой, которая называется AUC (Area Under Curve). AUC — это число, которое интерпретирует качество классификатора в одном значении. AUC принимает значения от 0 до 1, и чем больше AUC, тем лучше работает ваш классификатор.
Формула для вычисления AUC довольно проста:
AUC = Σ (TPR[i] - TPR[i-1]) * (FPR[i] + FPR[i-1]) / 2
Но вычислять AUC по формуле не обязательно — многие библиотеки машинного обучения имеют встроенные функции для расчета AUC по ROC (например, roc_auc_score из sklearn.metrics)
❓ Где градиент в градиентом бустинге?
Градиентный бустинг — это мощный ансамблевый метод, который использует последовательное добавление деревьев решений для улучшения предсказательной способности модели. Он работает по принципу "учимся на своих ошибках": каждое новое дерево фокусируется на ошибках, допущенных предыдущими деревьями.
Как это происходит?
🔸 Инициализация. Начинаем с базовой модели, которая, например, может быть просто средним значением целевой переменной (конечно, модель может быть и более сложной).
🔸 Вычисление остатков. На каждом шаге мы вычисляем остатки — антиградиент функции потерь относительно текущих предсказаний. Это демонстрирует направление, в котором нужно изменить предсказание, чтобы минимизировать функцию потерь.
🔸 Построение деревьев. На каждом шаге создаётся новое дерево решений, обучающееся на остатках предыдущей модели. Таким образом, новое дерево пытается "исправить" ошибки, сделанные предшествующими деревьями.
🔸 Обновление предсказаний. После того, как новое дерево обучено, его предсказания добавляются к текущим, предварительно домножаясь на некоторый коэффициент (learning rate), контролирующий скорость обучения.
🔸 Переход к следующей итерации. Процесс повторяется: на каждом шаге мы вычисляем новые остатки, строим новые деревья и обновляем предсказания до тех пор, пока не достигнем заданного числа деревьев или не будет достигнут критерий остановки, например, когда улучшения в качестве модели станут незначительными.
То есть такой итеративный метод основан на градиентах, что и даёт ему имя. Каждый новый шаг делает модель всё более точной, и окончательная комбинация всех деревьев позволяет минимизировать ошибки.
❓ Как считается площадь под кривой ROC?
ROC-кривая (Receiver Operating Characteristic) - одна из самых важных метрик для оценки бинарных классификаторов. ROC-кривая показывает, как соотносятся TPR (True Positive Rate — доля положительных объектов, правильно предсказанных положительными) и FPR (False Positive Rate - доля отрицательных объектов, неправильно предсказанных положительными) при различных порогах вероятности классификации.
Но самое интересное — это площадь под ROC-кривой, которая называется AUC (Area Under Curve). AUC — это число, которое интерпретирует качество классификатора в одном значении. AUC принимает значения от 0 до 1, и чем больше AUC, тем лучше работает ваш классификатор.
Формула для вычисления AUC довольно проста:
AUC = Σ (TPR[i] - TPR[i-1]) * (FPR[i] + FPR[i-1]) / 2
Но вычислять AUC по формуле не обязательно — многие библиотеки машинного обучения имеют встроенные функции для расчета AUC по ROC (например, roc_auc_score из sklearn.metrics)
❤4👍3
Привет, это Data Science клуб.
Сегодня мы расскажем о двух мощных инструментах, которые помогут вам в построении умных систем и анализе данных: рекомендательных системах и методах кластеризации. 🧠
🎯 Рекомендательные системы: от теории к практике
Хотите узнать, как создать систему, которая будет предлагать пользователям именно то, что им нужно? 📚
🟠 Статья про кросс-доменные рекомендации:
👉🏻 https://www.researchgate.net/publication/294285848_Cross-Domain_Recommender_Systems
(Уровень - Advance)
🟠 Узнайте как решать проблему разреженности данных с помощью ALS и метода переменного направления в статье «Междоменное распределение скрытых факторов посредством неявной матричной факторизации»:
👉🏻 https://airi.net/articles/cross-domain-latent-factors-sharing-via-implicit-matrix-factorization/ (Уровень - Advance)
🧩 Методы кластеризации: от простого к сложному 🧩
🟠 Сравнение различных методов кластеризации — узнайте, какой метод подходит вам лучше всего:
👉🏻 https://www.researchgate.net/publication/220643805_Comparison_of_Clustering_Methods_a_Case_Study_of_Text-Independent_Speaker_Modeling
🟠 Random Swap алгоритм — пример работы и код на Python:
👉🏻 https://github.com/uef-machine-learning/RandomSwap/blob/master/Python/random_swap.py
🟠 Алгоритмы оптимизации в кластеризации — для тех, кто хочет углубиться в математику:
👉🏻 https://mate.unipv.it/gualandi/opt4ml/clustering.pdf
Не упустите шанс расширить свои знания и навыки! 🚀
Сегодня мы расскажем о двух мощных инструментах, которые помогут вам в построении умных систем и анализе данных: рекомендательных системах и методах кластеризации. 🧠
🎯 Рекомендательные системы: от теории к практике
Хотите узнать, как создать систему, которая будет предлагать пользователям именно то, что им нужно? 📚
🟠 Статья про кросс-доменные рекомендации:
👉🏻 https://www.researchgate.net/publication/294285848_Cross-Domain_Recommender_Systems
(Уровень - Advance)
🟠 Узнайте как решать проблему разреженности данных с помощью ALS и метода переменного направления в статье «Междоменное распределение скрытых факторов посредством неявной матричной факторизации»:
👉🏻 https://airi.net/articles/cross-domain-latent-factors-sharing-via-implicit-matrix-factorization/ (Уровень - Advance)
🧩 Методы кластеризации: от простого к сложному 🧩
🟠 Сравнение различных методов кластеризации — узнайте, какой метод подходит вам лучше всего:
👉🏻 https://www.researchgate.net/publication/220643805_Comparison_of_Clustering_Methods_a_Case_Study_of_Text-Independent_Speaker_Modeling
🟠 Random Swap алгоритм — пример работы и код на Python:
👉🏻 https://github.com/uef-machine-learning/RandomSwap/blob/master/Python/random_swap.py
🟠 Алгоритмы оптимизации в кластеризации — для тех, кто хочет углубиться в математику:
👉🏻 https://mate.unipv.it/gualandi/opt4ml/clustering.pdf
Не упустите шанс расширить свои знания и навыки! 🚀
❤5
Всем привет! Сегодня мы хотим поделиться с вами дайджестом на декабрь 📝
1. Data Science Night 2.0: интеллектуальные системы в науке и бизнесе
📅 Когда: 4 декабря
✨ На Data Science Night эксперты из самых разных сфер расскажут о передовых подходах и реальных примерах использования интеллектуальных систем в науке и бизнесе. От проблем внедрения ИИ до мультиагентных систем — вас ждет вечер, наполненный актуальными темами, нетривиальными решениями и живым обменом опытом.
Ссылка 👉🏻 https://event.tedo.ru/data-science-night-event-2024
2. F*CKUP MEETUP
📅 Когда: 5 декабря
💻 F*CKUP MEETUP – это легендарный формат, где IT-специалисты собираются в офисе СберМаркета, чтобы обсудить самое ценное — выводы, полученные из своих ошибок. Спикеры открыто рассказывают о своих неудачах и делятся опытом, чтобы напомнить, что ошибаться нормально, а иногда – просто необходимо.
Ссылка 👉🏻 https://sbermarket.timepad.ru/event/3112371/
3. Хакатон Норникель: интеллектуальные горизонты
📅 Когда: 6 - 8 декабря
💡 Хакатон «Интеллектуальные горизонты» пройдет с 6 по 8 декабря в онлайн-формате с призовым фондом 1,5 млн рублей.
Для кого?
🔸 ML-инженеров различных направлений: DA, ML, CV, LLM Аналитиков
🔸 Студентов и выпускников вузов по техническим и инженерным направлениям
Участники смогут выбрать один из треков: от анализа данных до автоматизации, от экологического мониторинга до создания алгоритмов, которые могут изменить правила игры в индустрии. Разработчики, аналитики и инженеры получат возможность решить актуальные задачи в области цифровизации и устойчивого развития, продемонстрировать свои идеи и найти единомышленников.
Ссылка 👉🏻 https://clck.ru/3Er2Ra
4. Ночь опенсорс библиотек
📅 Когда: 14 декабря
🌙 Яндекс проведёт Ночь опенсорс-библиотек для всех, кто интересуется открытым кодом. Участники смогут стать частью открытого комьюнити, познакомиться с разработчиками знаковых проектов и внести свой вклад в их развитие, даже если это будет первый коммит.
В программе:
🔸 Хакатоны, воркшопы и развлечения от мейнтейнеров опенсорс-проектов в различных стеках.
🔸 Экскурсии и квесты по библиотеке, книжная лавка, концерт и сайлент-диско.
Для кого:
🔸 Фронтендеров — познакомиться с разработкой функциональных интерфейсов в Gravity UI, научиться супербыстро кодить в HTML/CSS с Emmet и автоматизировать задачи с zx
🔸 Бэкендеров — узнать, как используют YDB для решения самых разных задач и как автоматизируют всю документацию в Diplodoc. А плюсовикам будет особенно интересно пообщаться с разработчиками userver
🔸 Мобильных разработчиков — задать все вопросы о кросс-платформенной разработке приложений создателям фреймворка DivKit
🔸 ML-специалистов — познакомиться с реальными кейсами оптимизации обучения с помощью CatBoost и YaFSDP
🔸 Аналитиков — построить дашборд с аналитикой по опенсорсным репозиториям Яндекса в DataLens
Ссылка 👉🏻 https://events.yandex.ru/events/opensourcenight
1. Data Science Night 2.0: интеллектуальные системы в науке и бизнесе
📅 Когда: 4 декабря
✨ На Data Science Night эксперты из самых разных сфер расскажут о передовых подходах и реальных примерах использования интеллектуальных систем в науке и бизнесе. От проблем внедрения ИИ до мультиагентных систем — вас ждет вечер, наполненный актуальными темами, нетривиальными решениями и живым обменом опытом.
Ссылка 👉🏻 https://event.tedo.ru/data-science-night-event-2024
2. F*CKUP MEETUP
📅 Когда: 5 декабря
💻 F*CKUP MEETUP – это легендарный формат, где IT-специалисты собираются в офисе СберМаркета, чтобы обсудить самое ценное — выводы, полученные из своих ошибок. Спикеры открыто рассказывают о своих неудачах и делятся опытом, чтобы напомнить, что ошибаться нормально, а иногда – просто необходимо.
Ссылка 👉🏻 https://sbermarket.timepad.ru/event/3112371/
3. Хакатон Норникель: интеллектуальные горизонты
📅 Когда: 6 - 8 декабря
💡 Хакатон «Интеллектуальные горизонты» пройдет с 6 по 8 декабря в онлайн-формате с призовым фондом 1,5 млн рублей.
Для кого?
🔸 ML-инженеров различных направлений: DA, ML, CV, LLM Аналитиков
🔸 Студентов и выпускников вузов по техническим и инженерным направлениям
Участники смогут выбрать один из треков: от анализа данных до автоматизации, от экологического мониторинга до создания алгоритмов, которые могут изменить правила игры в индустрии. Разработчики, аналитики и инженеры получат возможность решить актуальные задачи в области цифровизации и устойчивого развития, продемонстрировать свои идеи и найти единомышленников.
Ссылка 👉🏻 https://clck.ru/3Er2Ra
4. Ночь опенсорс библиотек
📅 Когда: 14 декабря
🌙 Яндекс проведёт Ночь опенсорс-библиотек для всех, кто интересуется открытым кодом. Участники смогут стать частью открытого комьюнити, познакомиться с разработчиками знаковых проектов и внести свой вклад в их развитие, даже если это будет первый коммит.
В программе:
🔸 Хакатоны, воркшопы и развлечения от мейнтейнеров опенсорс-проектов в различных стеках.
🔸 Экскурсии и квесты по библиотеке, книжная лавка, концерт и сайлент-диско.
Для кого:
🔸 Фронтендеров — познакомиться с разработкой функциональных интерфейсов в Gravity UI, научиться супербыстро кодить в HTML/CSS с Emmet и автоматизировать задачи с zx
🔸 Бэкендеров — узнать, как используют YDB для решения самых разных задач и как автоматизируют всю документацию в Diplodoc. А плюсовикам будет особенно интересно пообщаться с разработчиками userver
🔸 Мобильных разработчиков — задать все вопросы о кросс-платформенной разработке приложений создателям фреймворка DivKit
🔸 ML-специалистов — познакомиться с реальными кейсами оптимизации обучения с помощью CatBoost и YaFSDP
🔸 Аналитиков — построить дашборд с аналитикой по опенсорсным репозиториям Яндекса в DataLens
Ссылка 👉🏻 https://events.yandex.ru/events/opensourcenight
❤2🥰2
Победа на хакатоне HSE Sber RecSys! 🏆
Наши ребята из Клуба Data Science, Полина и Петр, вместе с командой, заняли призовое 3 место среди 97 команд! 🎉
Задача хакатона была создать кросс-доменные рекомендации на основе реальных данных Сбера, а именно интеракций пользователей на сервисах МегаМаркет и Звук.
Команда экспериментировала с разными моделями — CatBoost, LightFM, KNN, SVD и CDIMF, каждая из которых предлагала что-то уникальное. Но именно их финальный подход выделялся особенно. Они применяли ALS (Alternating Least Squares) по отдельности к каждому датасету, а также был сделан рескор для кросс доменности.
Лидерство в лидерборде по этой метрике держали все три дня хакатона! 🚀
Мы гордимся их решением и командной работой!
Наши ребята из Клуба Data Science, Полина и Петр, вместе с командой, заняли призовое 3 место среди 97 команд! 🎉
Задача хакатона была создать кросс-доменные рекомендации на основе реальных данных Сбера, а именно интеракций пользователей на сервисах МегаМаркет и Звук.
Команда экспериментировала с разными моделями — CatBoost, LightFM, KNN, SVD и CDIMF, каждая из которых предлагала что-то уникальное. Но именно их финальный подход выделялся особенно. Они применяли ALS (Alternating Least Squares) по отдельности к каждому датасету, а также был сделан рескор для кросс доменности.
Лидерство в лидерборде по этой метрике держали все три дня хакатона! 🚀
Мы гордимся их решением и командной работой!
🔥23❤5🕊2
📣 Разбор призового места на хакатоне HSE Sber RecSys.
Напоминаем, что наши ребята из REU Data Science Club, Пётр Сокерин и Полина Калинкина, вместе с командой заняли призовое 3 место среди 97 команд на хакатоне HSE Sber RecSys! Еще раз поздравляем их с этим потрясающим достижением! 🎉
Теперь у вас есть уникальная возможность лично послушать разбор решений от самих участников. Пётр и Полина расскажут о том, как они создавали кросс-доменные рекомендации на основе реальных данных Сбера, включая данные о взаимодействиях пользователей с сервисами МегаМаркет и Звук.
💥На ликбезе вы узнаете:
🔶 Как использовался алгоритм ALS (Alternating Least Squares) для создания кросс-доменных рекомендаций и какие другие алгоритмы применялись для решения.
🔶 Подробный разбор самого решения: как команда пришла к подходу и какие шаги были предприняты.
🔶 С какими трудностями столкнулись участники и как они их преодолевали.
❗️Не упустите шанс задать интересующие вас вопросы и получить ценные советы от участников хакатона!
🗓 Когда: 3 декабря (вторник), в 21:00
🔗 Ссылка на ликбез появится позже
Напоминаем, что наши ребята из REU Data Science Club, Пётр Сокерин и Полина Калинкина, вместе с командой заняли призовое 3 место среди 97 команд на хакатоне HSE Sber RecSys! Еще раз поздравляем их с этим потрясающим достижением! 🎉
Теперь у вас есть уникальная возможность лично послушать разбор решений от самих участников. Пётр и Полина расскажут о том, как они создавали кросс-доменные рекомендации на основе реальных данных Сбера, включая данные о взаимодействиях пользователей с сервисами МегаМаркет и Звук.
💥На ликбезе вы узнаете:
🔶 Как использовался алгоритм ALS (Alternating Least Squares) для создания кросс-доменных рекомендаций и какие другие алгоритмы применялись для решения.
🔶 Подробный разбор самого решения: как команда пришла к подходу и какие шаги были предприняты.
🔶 С какими трудностями столкнулись участники и как они их преодолевали.
❗️Не упустите шанс задать интересующие вас вопросы и получить ценные советы от участников хакатона!
🗓 Когда: 3 декабря (вторник), в 21:00
🔗 Ссылка на ликбез появится позже
❤🔥3🕊2
Всем привет!🧡
Сегодня в 21:00 состоится онлайн ликбез на тему "Разбор задач с вступительного в ШАД"
Спикер: Юлия Силова
На ликбезе пошагово разберем задачи с их теорией на алгоритмы и на математику (теория вероятностей и математическая статистика).
🔗Ссылка на ликбез:
👉https://telemost.yandex.ru/j/39741199375926
Всех ждем!
Сегодня в 21:00 состоится онлайн ликбез на тему "Разбор задач с вступительного в ШАД"
Спикер: Юлия Силова
На ликбезе пошагово разберем задачи с их теорией на алгоритмы и на математику (теория вероятностей и математическая статистика).
🔗Ссылка на ликбез:
👉https://telemost.yandex.ru/j/39741199375926
Всех ждем!
telemost.yandex.ru
Яндекс Телемост
Видеовстречи по ссылке. Собирайте в Телемосте рабочие конференции или встречайтесь с друзьями. Встречи не ограничены по времени. Можно скачать Телемост для Windows или macOS.
❤🔥7❤1
👋 Привет, будущие дата-сайентисты! 👨💻👩💻
Мы видим все ваши стремления учиться, расти и добиваться большего. Поэтому специально для вас мы сделали новый вид набора 💥BINGO💥.
Это не просто шанс стать частью сообщества талантливых и целеустремленных людей, а возможность открыть двери в мир данных, машинного обучения и аналитики, которые улучшают жизнь многих людей.
Но чтобы попасть к нам вам надо сыграть в бинго 🎯
Выполните 3⃣ задания по вертикали / горизонтали / диагонали плюс еще 1⃣ дополнительное задание из карты с подтверждениями (их отправляйте 👉🏻Никите) и вне очереди и набора попадите на собеседование в нашу команду организаторов!
📍Подробности заданий:
1. Сделать ревью статьи на DS тему
2. Посетить наш ликбез, сделать селфи
3. Сделать пет-проект с полным его объяснением и ссылкой на гитхаб
4. Сделать селфи с одним из хедов клуба
5. Пройти хороший курс (смотрите нашу Базу Знаний!) по DS\Python\Backend, скинуть подтверждение (сертификат или результат)
6. Посетить IT\DS конференцию, сделать селфи
7. Сделать плашку к одному из наших постов
8. Сделать дизайн постера для клуба с использованием ИИ
9. Посетить наше очное мероприятие (лекция, мастер-класс) и сделать селфи
🟠 При успешном прохождении собеседования вы станете полноценным участником DS Club в одном из выбранных вами департаменте: SMM, EVENTS, PR, HACKS&PROJECTS, DEVELOPMENT&MENTORING.
Подробнее о преимуществах для организаторов клуба
Мы видим все ваши стремления учиться, расти и добиваться большего. Поэтому специально для вас мы сделали новый вид набора 💥BINGO💥.
Это не просто шанс стать частью сообщества талантливых и целеустремленных людей, а возможность открыть двери в мир данных, машинного обучения и аналитики, которые улучшают жизнь многих людей.
Но чтобы попасть к нам вам надо сыграть в бинго 🎯
Выполните 3⃣ задания по вертикали / горизонтали / диагонали плюс еще 1⃣ дополнительное задание из карты с подтверждениями (их отправляйте 👉🏻Никите) и вне очереди и набора попадите на собеседование в нашу команду организаторов!
📍Подробности заданий:
1. Сделать ревью статьи на DS тему
2. Посетить наш ликбез, сделать селфи
3. Сделать пет-проект с полным его объяснением и ссылкой на гитхаб
4. Сделать селфи с одним из хедов клуба
5. Пройти хороший курс (смотрите нашу Базу Знаний!) по DS\Python\Backend, скинуть подтверждение (сертификат или результат)
6. Посетить IT\DS конференцию, сделать селфи
7. Сделать плашку к одному из наших постов
8. Сделать дизайн постера для клуба с использованием ИИ
9. Посетить наше очное мероприятие (лекция, мастер-класс) и сделать селфи
🟠 При успешном прохождении собеседования вы станете полноценным участником DS Club в одном из выбранных вами департаменте: SMM, EVENTS, PR, HACKS&PROJECTS, DEVELOPMENT&MENTORING.
Подробнее о преимуществах для организаторов клуба
❤4
Всем привет! 🔥 Приглашаем вас на мастер-класс с разбором кейса с Kaggle!
Самое время представить нашего спикера: Александр Иванов, Data Scientist (AI решения для ВСП в Сбере), а также заместитель хэда REU DS Club по внутренней части в этом сезоне.
На мастер-классе мы разберем задачу классификации текста, шаг за шагом пройдя путь от анализа данных до построения работающей модели. Наш спикер поделится своим опытом, расскажет о лучших практиках и тонкостях решения подобных задач, а также ответит на все ваши вопросы!
Что вас ждет:
🔸 Обсуждение кейса и анализ датасета 📊
🔸 Пошаговый разбор решения задачи ➡
🔸 Выбор и настройка моделей ⚙
🔸 Оценка и интерпретация результатов 📈
🔸 Возможность задать любые вопросы спикеру 🙋♂
💻 При желании можете взять с собой ноутбук, чтобы делать заметки, писать код и закреплять полученные знания. Это отличная возможность прокачать свои навыки в NLP!
📅 Когда: 24 декабря, 19:15
Ссылка для регистрации 👉🏼 https://docs.google.com/forms/d/e/1FAIpQLSeLuyqM6_2VwL2Z-Pbqn76SB8lG1ZppBUb3aQ4WVQ4Lmv1hHQ/viewform?usp=header
⛳Где: РЭУ им Плеханова, 3 корпус, 201 аудитория
Самое время представить нашего спикера: Александр Иванов, Data Scientist (AI решения для ВСП в Сбере), а также заместитель хэда REU DS Club по внутренней части в этом сезоне.
На мастер-классе мы разберем задачу классификации текста, шаг за шагом пройдя путь от анализа данных до построения работающей модели. Наш спикер поделится своим опытом, расскажет о лучших практиках и тонкостях решения подобных задач, а также ответит на все ваши вопросы!
Что вас ждет:
🔸 Обсуждение кейса и анализ датасета 📊
🔸 Пошаговый разбор решения задачи ➡
🔸 Выбор и настройка моделей ⚙
🔸 Оценка и интерпретация результатов 📈
🔸 Возможность задать любые вопросы спикеру 🙋♂
💻 При желании можете взять с собой ноутбук, чтобы делать заметки, писать код и закреплять полученные знания. Это отличная возможность прокачать свои навыки в NLP!
📅 Когда: 24 декабря, 19:15
Ссылка для регистрации 👉🏼 https://docs.google.com/forms/d/e/1FAIpQLSeLuyqM6_2VwL2Z-Pbqn76SB8lG1ZppBUb3aQ4WVQ4Lmv1hHQ/viewform?usp=header
⛳Где: РЭУ им Плеханова, 3 корпус, 201 аудитория
Привет! Сегодня мы поговорим о вопросах, которые могут встретиться на собеседовании на позицию Machine Learning Engineer. Давайте разберем их вместе)😉
🟠 1. Какая будет асимптотика времени работы алгоритма quicksort в худшем случае, если в качестве разделителя выбирать всегда первый элемент массива, не используя рандомизации?
Ответ 👉🏻 в худшем случае, если в качестве разделителя выбирать всегда первый элемент массива, асимптотика времени работы алгоритма quicksort будет O(n^2). Это происходит, когда массив уже отсортирован или почти отсортирован, и каждый разделитель делит массив на одну часть с одним элементом и другую часть с n-1 элементами.
🟠 2. Сколько необходимо использовать дополнительной памяти (асимптотически), чтобы развернуть (reverse) связный список?
Ответ 👉🏻 для разворота связного списка асимптотически требуется O(1) дополнительной памяти. Это возможно, потому что можно изменить указатели внутри существующих узлов списка, не создавая новых узлов или структур данных.
🟠 3. Дисперсия стандартного нормального распределения?
Ответ 👉🏻 дисперсия стандартного нормального распределения равна 1. Стандартное нормальное распределение имеет среднее значение 0 и стандартное отклонение 1, следовательно, дисперсия (квадрат стандартного отклонения) также равна 1
🟠 4. Сложность поиска по сету в питоне?
Ответ 👉🏻 сложность поиска по сету (set) в Python в среднем составляет O(1). Это достигается за счет использования хеш-таблиц для хранения элементов, что позволяет быстро осуществлять операции поиска, вставки и удаления.
Эти вопросы и ответы помогут вам подготовиться к собеседованиям и углубить ваши знания в области машинного обучения и данных! Если у вас есть свои вопросы или вы хотите обсудить что-то еще, пишите в комментариях.
#DataScience #MachineLearning #InterviewPrep #Algorithms #Python
🟠 1. Какая будет асимптотика времени работы алгоритма quicksort в худшем случае, если в качестве разделителя выбирать всегда первый элемент массива, не используя рандомизации?
Ответ 👉🏻 в худшем случае, если в качестве разделителя выбирать всегда первый элемент массива, асимптотика времени работы алгоритма quicksort будет O(n^2). Это происходит, когда массив уже отсортирован или почти отсортирован, и каждый разделитель делит массив на одну часть с одним элементом и другую часть с n-1 элементами.
🟠 2. Сколько необходимо использовать дополнительной памяти (асимптотически), чтобы развернуть (reverse) связный список?
Ответ 👉🏻 для разворота связного списка асимптотически требуется O(1) дополнительной памяти. Это возможно, потому что можно изменить указатели внутри существующих узлов списка, не создавая новых узлов или структур данных.
🟠 3. Дисперсия стандартного нормального распределения?
Ответ 👉🏻 дисперсия стандартного нормального распределения равна 1. Стандартное нормальное распределение имеет среднее значение 0 и стандартное отклонение 1, следовательно, дисперсия (квадрат стандартного отклонения) также равна 1
🟠 4. Сложность поиска по сету в питоне?
Ответ 👉🏻 сложность поиска по сету (set) в Python в среднем составляет O(1). Это достигается за счет использования хеш-таблиц для хранения элементов, что позволяет быстро осуществлять операции поиска, вставки и удаления.
Эти вопросы и ответы помогут вам подготовиться к собеседованиям и углубить ваши знания в области машинного обучения и данных! Если у вас есть свои вопросы или вы хотите обсудить что-то еще, пишите в комментариях.
#DataScience #MachineLearning #InterviewPrep #Algorithms #Python
❤1
Всем привет! 🧡 Новый год уже совсем близко 🎄 и мы спешим поздравить вас с наступающими праздниками🎊. А пока вы готовитесь к торжеству, давайте узнаем кое-что полезное и интересное вместе.
Сегодня мы хотим рассказать вам о представлении данных для нейронных сетей. Если вы когда-нибудь задумывались, как машины 🤖 "понимают" и обрабатывают информацию, то этот пост для вас.
Все современные системы машинного обучения используют тензоры в качестве основной структуры данных. 📍Фактически тензор — это контейнер для данных, чаще всего числовых. Можно это представить в виде обобщения матриц с производным количеством измерений (осей). Давайте рассмотрим подробнее их разновидности.
0️⃣ Тензор, содержащий единственное число, называется скаляром (скалярным тензором, или тензором нулевого ранга). В NumPy — это число типа float32 или float64. Скалярный тензор имеет 0 осей, то есть у него нулевой ранг.
1️⃣ Одномерный массив чисел называют вектором, или тензором первого ранга, он имеет единственную ось.
2️⃣ Массив векторов — это матрица, или тензор второго ранга, также его можно назвать двумерным тензором. Матрица имеет две оси (часто их называют строками и столбцами).
3️⃣ Если упаковывать такие матрицы в новый массив, то получится трехмерный тензор, который можно представить как числовой куб.
⬆️ Упаковав трехмерные тензоры в массив, вы получите четырехмерный тензор – и т.д. В глубоком обучении используются тензоры от нулевого ранга до четырехмерных, но иногда (например, при обработке видео данных📹) дело может дойти и до пятимерных.
Это может показаться сложным, но именно в этой многомерности кроется сила нейронных сетей. Каждое новое измерение — это новый уровень абстракции, который позволяет моделям находить сложные закономерности и решать задачи, которые раньше казались недостижимыми.
Сегодня мы хотим рассказать вам о представлении данных для нейронных сетей. Если вы когда-нибудь задумывались, как машины 🤖 "понимают" и обрабатывают информацию, то этот пост для вас.
Все современные системы машинного обучения используют тензоры в качестве основной структуры данных. 📍Фактически тензор — это контейнер для данных, чаще всего числовых. Можно это представить в виде обобщения матриц с производным количеством измерений (осей). Давайте рассмотрим подробнее их разновидности.
0️⃣ Тензор, содержащий единственное число, называется скаляром (скалярным тензором, или тензором нулевого ранга). В NumPy — это число типа float32 или float64. Скалярный тензор имеет 0 осей, то есть у него нулевой ранг.
1️⃣ Одномерный массив чисел называют вектором, или тензором первого ранга, он имеет единственную ось.
2️⃣ Массив векторов — это матрица, или тензор второго ранга, также его можно назвать двумерным тензором. Матрица имеет две оси (часто их называют строками и столбцами).
3️⃣ Если упаковывать такие матрицы в новый массив, то получится трехмерный тензор, который можно представить как числовой куб.
⬆️ Упаковав трехмерные тензоры в массив, вы получите четырехмерный тензор – и т.д. В глубоком обучении используются тензоры от нулевого ранга до четырехмерных, но иногда (например, при обработке видео данных📹) дело может дойти и до пятимерных.
Это может показаться сложным, но именно в этой многомерности кроется сила нейронных сетей. Каждое новое измерение — это новый уровень абстракции, который позволяет моделям находить сложные закономерности и решать задачи, которые раньше казались недостижимыми.
❤1
Надеемся, вы успели отойти от новогодних праздников 🥂, потому что у нас для вас крутые новости 🔥
Мы с радостью объявляем новый набор организаторов в DS Club! 🤩 Стань частью нашей команды, раскрой свой потенциал и вместе с нами сделай клуб лучше.
Прием осуществляется во ВСЕ департаменты.
🟠 SMM 💫: творчество и тренды — твоя стихия? Присоединяйся, если хочешь создавать уникальный контент и продвигать клуб в соцсетях.
🟠 EVENTS 🪩: если ты жаждешь устраивать незабываемые мероприятия, то быстрее проходи в этот департамент. Это не только про организацию и планирования, но и про яркие эмоции.
🟠 PR 🗣️: для тех, кто мастерски ведет переговоры, умеет влиять на аудиторию и хочет стать лицом клуба в общении с партнерами.
🟠 HACKS&PROJECTS 👾: интересуешься передовыми методами, любишь сложные задачи и внимание к деталям? Здесь ты сможешь работать над кейсами, участвовать в хакатонах и создавать решения проектов, которые меняют реальность.
🟠 DEVELOPMENT&MENTORING 📙: идеально подойдет для тех, кто хочет заниматься контролем за развитием организаторов клуба. Именно ты будешь участвовать в формировании будущего для нашего сообщества.
Что тебе понадобится, чтобы стать организатором?
🎯 Первое и самое важное – желание развиваться в сфере Data Science!
А также посмотри в этом посте требуемые технические и социальные навыки
Преимущества для организаторов:
🌟 Персональная программа развития с опытным ментором
🌟 Погружение в Data Science на Месяце бота
🌟 Работа над реальными проектами на хакатонах
🌟 Реализация своих идей через пет-проекты
🌟 Неформальные встречи с коммьюнити клуба
🌟 Закрытые лекции и ликбезы для участников
🌟 Экскурсии в офисы топовых компаний
Скорее заполняйте форму для организаторов, она открыта для всех, вне зависимости от ВУЗа, возраста и других мелочей!
👉🏻 https://forms.gle/yxfcnmUUKZzYpMeN8
❗️Дедлайн заполнения формы 01.02.2025 , 23:59❗️
🤔 Что делать, если я не особо хочу развиваться в Data Science?
Если Data Science — не ваше направление, но у вас есть навыки или желание развиваться в дизайне, видеомонтаже, фотографии, копирайтинге или других вышеперечисленных сферах, и вы ищете площадку для реализации идей, заполните форму для сотрудничества и присоединяйтесь к нам на своих условиях.
👉🏻 https://forms.gle/yojzqRQxUrijZKZ37
С нетерпением ждем вас в нашей команде! 🧡
Мы с радостью объявляем новый набор организаторов в DS Club! 🤩 Стань частью нашей команды, раскрой свой потенциал и вместе с нами сделай клуб лучше.
Прием осуществляется во ВСЕ департаменты.
🟠 SMM 💫: творчество и тренды — твоя стихия? Присоединяйся, если хочешь создавать уникальный контент и продвигать клуб в соцсетях.
🟠 EVENTS 🪩: если ты жаждешь устраивать незабываемые мероприятия, то быстрее проходи в этот департамент. Это не только про организацию и планирования, но и про яркие эмоции.
🟠 PR 🗣️: для тех, кто мастерски ведет переговоры, умеет влиять на аудиторию и хочет стать лицом клуба в общении с партнерами.
🟠 HACKS&PROJECTS 👾: интересуешься передовыми методами, любишь сложные задачи и внимание к деталям? Здесь ты сможешь работать над кейсами, участвовать в хакатонах и создавать решения проектов, которые меняют реальность.
🟠 DEVELOPMENT&MENTORING 📙: идеально подойдет для тех, кто хочет заниматься контролем за развитием организаторов клуба. Именно ты будешь участвовать в формировании будущего для нашего сообщества.
Что тебе понадобится, чтобы стать организатором?
🎯 Первое и самое важное – желание развиваться в сфере Data Science!
А также посмотри в этом посте требуемые технические и социальные навыки
Преимущества для организаторов:
🌟 Персональная программа развития с опытным ментором
🌟 Погружение в Data Science на Месяце бота
🌟 Работа над реальными проектами на хакатонах
🌟 Реализация своих идей через пет-проекты
🌟 Неформальные встречи с коммьюнити клуба
🌟 Закрытые лекции и ликбезы для участников
🌟 Экскурсии в офисы топовых компаний
Скорее заполняйте форму для организаторов, она открыта для всех, вне зависимости от ВУЗа, возраста и других мелочей!
👉🏻 https://forms.gle/yxfcnmUUKZzYpMeN8
❗️Дедлайн заполнения формы 01.02.2025 , 23:59❗️
🤔 Что делать, если я не особо хочу развиваться в Data Science?
Если Data Science — не ваше направление, но у вас есть навыки или желание развиваться в дизайне, видеомонтаже, фотографии, копирайтинге или других вышеперечисленных сферах, и вы ищете площадку для реализации идей, заполните форму для сотрудничества и присоединяйтесь к нам на своих условиях.
👉🏻 https://forms.gle/yojzqRQxUrijZKZ37
С нетерпением ждем вас в нашей команде! 🧡
VK
REU Data Science Club. Пост со стены.
Если вы хотите стать одним из организаторов нашего клуба, то этот пост для вас!🙌🏻
📚Какие ha... Смотрите полностью ВКонтакте.
📚Какие ha... Смотрите полностью ВКонтакте.
❤5👍3🥰1
Всем привет! Сегодня мы подготовили для вас подборку курсов по линейной алгебре из нашей базы знаний🔥
📕 Линейная алгебра является важным разделом математики для дата-сайентистов, поскольку она помогает нам понять, как алгоритмы машинного обучения работают с потоком данных для создания представления и позволит вам:
🔸 разработать методы машинного обучения
🔸 смоделировать поведение различных объектов
🔸 оптимизировать процесс кластеризации и уменьшения размерности описания данных
1. Linear Algebra, Stepik
Курс ориентирован на освоение базовых понятий линейной алгебры и их практическое применение, а также помогает в развитии интуиции, что особенно важно для успешного использования теории в реальных задачах. Курс предлагает разнообразные задачи для более глубокого усвоения материала. Кроме того, он будет полезен тем, кто хочет освежить свои знания и уверенно применять линейную алгебру в различных областях.
Ссылка 👉🏻 stepik.org/course/79
2. Линейная алгебра и геометрия, Stepik
Этот курс состоит из теоретической и практической частей, построенных вокруг системы кейсов, взятых из реальной практики геометрического моделирования движения мобильных виртуальных объектов и применения машинного обучения.
Ссылка 👉🏻 stepik.org/course/4940
3. Линейная алгебра, Openedu
Базовый онлайн курс линейный алгебры от ВШЭ, содержащий все ключевые для статистки и многомерного анализа приложения и алгоритмы, хотя и не всегда содержащий подробные доказательства.
Ссылка 👉🏻 https://openedu.ru/course/hse/LINAL/?session=fall_2020
4. Линейная алгебра, Stepik:
Данный курс представляет собой краткое изложение основ линейной алгебры. Основная его задача - напомнить базовые факты линейной алгебры, использующиеся в тех или иных разделах практического программирования.
Ссылка 👉🏻 stepik.org/course/2461
Успехов вам в изучении!🐱
📕 Линейная алгебра является важным разделом математики для дата-сайентистов, поскольку она помогает нам понять, как алгоритмы машинного обучения работают с потоком данных для создания представления и позволит вам:
🔸 разработать методы машинного обучения
🔸 смоделировать поведение различных объектов
🔸 оптимизировать процесс кластеризации и уменьшения размерности описания данных
1. Linear Algebra, Stepik
Курс ориентирован на освоение базовых понятий линейной алгебры и их практическое применение, а также помогает в развитии интуиции, что особенно важно для успешного использования теории в реальных задачах. Курс предлагает разнообразные задачи для более глубокого усвоения материала. Кроме того, он будет полезен тем, кто хочет освежить свои знания и уверенно применять линейную алгебру в различных областях.
Ссылка 👉🏻 stepik.org/course/79
2. Линейная алгебра и геометрия, Stepik
Этот курс состоит из теоретической и практической частей, построенных вокруг системы кейсов, взятых из реальной практики геометрического моделирования движения мобильных виртуальных объектов и применения машинного обучения.
Ссылка 👉🏻 stepik.org/course/4940
3. Линейная алгебра, Openedu
Базовый онлайн курс линейный алгебры от ВШЭ, содержащий все ключевые для статистки и многомерного анализа приложения и алгоритмы, хотя и не всегда содержащий подробные доказательства.
Ссылка 👉🏻 https://openedu.ru/course/hse/LINAL/?session=fall_2020
4. Линейная алгебра, Stepik:
Данный курс представляет собой краткое изложение основ линейной алгебры. Основная его задача - напомнить базовые факты линейной алгебры, использующиеся в тех или иных разделах практического программирования.
Ссылка 👉🏻 stepik.org/course/2461
Успехов вам в изучении!🐱
Stepik: online education
Linear Algebra: Problems and Methods
The goal of the course is explain the fundamental ideas of linear algebra and how to use them to find easy solutions of hard problems.
❤7