Дорогие друзья!
Приглашаем вас на онлайн ликбез, который состоится 23 сентября в 21:00. В рамках этого мероприятия спикер Андрей Сухов расскажет важные аспекты, связанные с LLM (Large Language Models) 📑
На ликбезе мы разберём:
🔸 Что такое LLM и где оно используется
🔸 Этапы и цена обучения
🔸 Оценка работы LLM
🔸 Готорвые реализации (YaGPT, GIGACHAT)
🔸 Какие инструменты может использовать LLM
🔸 Проблемы LLM
Ссылка будет позже📎
Приглашаем вас на онлайн ликбез, который состоится 23 сентября в 21:00. В рамках этого мероприятия спикер Андрей Сухов расскажет важные аспекты, связанные с LLM (Large Language Models) 📑
На ликбезе мы разберём:
🔸 Что такое LLM и где оно используется
🔸 Этапы и цена обучения
🔸 Оценка работы LLM
🔸 Готорвые реализации (YaGPT, GIGACHAT)
🔸 Какие инструменты может использовать LLM
🔸 Проблемы LLM
Ссылка будет позже📎
❤5❤🔥2
Вы готовы? 3... 2... 1...
💥 Открыт набор организаторов клуба!
Теперь вы можете стать частью нашей команды и влиять на будущее клуба! Набор ведется во ВСЕ департаменты:
🔸 SMM ✨ — Для тех, кто любит создавать уникальный контент и продвигать наш клуб через визуальные истории, постоянно следит за трендами и стремится быстро видеть результаты своей работы.
🔸 EVENTS 🎉 — Любишь динамику и не боишься вызовов? Организация мероприятий — это всегда что-то новое и незабываемое! Яркие эмоции и множество задач вам гарантированы.
🔸 PR 🗣 — Если ты прирожденный оратор, мастер переговоров и хочешь влиять на общественное мнение, то тебе сюда! Общение с партнёрами и популяризация клуба — твоя зона ответственности.
🔸 HACKS&PROJECTS 🛠 — Идеально для тех, кто увлечен технологиями и любит работу над сложными проектами. Внимание к деталям и погружение в задачи — вот ваш путь.
🔸 DEVELOPMENT&MENTORING 📚 — Если вам нравится помогать другим расти и развиваться, а также планировать стратегически — этот департамент для вас. Система наставничества ждёт вас!
Что нужно, чтобы стать организатором?
🔥Первое и самое важное: желание развиваться в Data Science!!!🔥
Что еще необходимо, чтобы успешно пройти все вступительные испытания?
🧡 Преимущества для организаторов:
💫 Индивидуальная программа развития под руководством опытного ментора
💫 Обучение в формате погружения в Data Science на Месяце бота
💫 Возможность реализовать свои идеи в качестве пет-проектов
💫 Участие в неформалках с коммьюнити клуба
💫 Совместная работа над реальными проектами на хакатонах
💫 Закрытые лекции и ликбезы для членов клуба
💫 Экскурсии в офисы крутых компаний
Скорее заполняйте форму для организаторов, она открыта для всех, вне зависимости от ВУЗа, возраста и других мелочей!
👉https://forms.gle/VmYj3VASwcnnJvoF7
🧐Что делать, если я не особо хочу развиваться в Data Science?
Если вы не хотите развиваться в Data Science, но имеете крутые навыки/желание развиваться в дизайне, видеомонтаже, фотографии, копирайтинге или других сферах и ищете площадку для реализации своих проектов и оттачивания навыков, заполните форму для сотрудничества и присоединяйтесь на своих условиях!
👉https://forms.gle/t9biTCyetC7goRjeA
Будем рады видеть вас в команде!
💥 Открыт набор организаторов клуба!
Теперь вы можете стать частью нашей команды и влиять на будущее клуба! Набор ведется во ВСЕ департаменты:
🔸 SMM ✨ — Для тех, кто любит создавать уникальный контент и продвигать наш клуб через визуальные истории, постоянно следит за трендами и стремится быстро видеть результаты своей работы.
🔸 EVENTS 🎉 — Любишь динамику и не боишься вызовов? Организация мероприятий — это всегда что-то новое и незабываемое! Яркие эмоции и множество задач вам гарантированы.
🔸 PR 🗣 — Если ты прирожденный оратор, мастер переговоров и хочешь влиять на общественное мнение, то тебе сюда! Общение с партнёрами и популяризация клуба — твоя зона ответственности.
🔸 HACKS&PROJECTS 🛠 — Идеально для тех, кто увлечен технологиями и любит работу над сложными проектами. Внимание к деталям и погружение в задачи — вот ваш путь.
🔸 DEVELOPMENT&MENTORING 📚 — Если вам нравится помогать другим расти и развиваться, а также планировать стратегически — этот департамент для вас. Система наставничества ждёт вас!
Что нужно, чтобы стать организатором?
🔥Первое и самое важное: желание развиваться в Data Science!!!🔥
Что еще необходимо, чтобы успешно пройти все вступительные испытания?
🧡 Преимущества для организаторов:
💫 Индивидуальная программа развития под руководством опытного ментора
💫 Обучение в формате погружения в Data Science на Месяце бота
💫 Возможность реализовать свои идеи в качестве пет-проектов
💫 Участие в неформалках с коммьюнити клуба
💫 Совместная работа над реальными проектами на хакатонах
💫 Закрытые лекции и ликбезы для членов клуба
💫 Экскурсии в офисы крутых компаний
Скорее заполняйте форму для организаторов, она открыта для всех, вне зависимости от ВУЗа, возраста и других мелочей!
👉https://forms.gle/VmYj3VASwcnnJvoF7
🧐Что делать, если я не особо хочу развиваться в Data Science?
Если вы не хотите развиваться в Data Science, но имеете крутые навыки/желание развиваться в дизайне, видеомонтаже, фотографии, копирайтинге или других сферах и ищете площадку для реализации своих проектов и оттачивания навыков, заполните форму для сотрудничества и присоединяйтесь на своих условиях!
👉https://forms.gle/t9biTCyetC7goRjeA
Будем рады видеть вас в команде!
👍1
💥Всем привет!
Мы знаем, вы ждали этого - фотографии с презентации клуба уже в альбоме VK. Смотрите, ищите себя и друзей, отмечайте и лайкайте!
А ещё мы подготовили для вас СЮРПРИЗ!😍
Вчера был последний день приема заявок в клуб, при этом мы знаем, что у многих ребят есть желание стать организаторами клуба, но по каким-то причинам они не успели заполнить форму.
Поэтому специально для вас ❤️🔥ТОЛЬКО СЕГОДНЯ❤️🔥 у вас есть последняя возможность попасть в число организаторов клуба.
Набор ведется во ВСЕ департаменты:
🔸 SMM
🔸 EVENTS
🔸 PR
🔸 HACKS&PROJECTS
🔸 DEVELOPMENT&MENTORING
❗️Заполняйте форму СЕГОДНЯ до 23:59
👉https://forms.gle/VmYj3VASwcnnJvoF7
Будем рады видеть вас в команде! 🎉💖
Мы знаем, вы ждали этого - фотографии с презентации клуба уже в альбоме VK. Смотрите, ищите себя и друзей, отмечайте и лайкайте!
А ещё мы подготовили для вас СЮРПРИЗ!😍
Вчера был последний день приема заявок в клуб, при этом мы знаем, что у многих ребят есть желание стать организаторами клуба, но по каким-то причинам они не успели заполнить форму.
Поэтому специально для вас ❤️🔥ТОЛЬКО СЕГОДНЯ❤️🔥 у вас есть последняя возможность попасть в число организаторов клуба.
Набор ведется во ВСЕ департаменты:
🔸 SMM
🔸 EVENTS
🔸 PR
🔸 HACKS&PROJECTS
🔸 DEVELOPMENT&MENTORING
❗️Заполняйте форму СЕГОДНЯ до 23:59
👉https://forms.gle/VmYj3VASwcnnJvoF7
Будем рады видеть вас в команде! 🎉💖
❤6
📢 Разбираем победу на хакатоне ВШЭ ПСБ.Хак с командой Data Science Club!
Помните, как REU Data Science Club занял второе место на ВШЭ ПСБ.Хак? У вас есть возможность заглянуть за кулисы и узнать, как команда справилась с задачей! Подключайтесь к нашему онлайн-ликбезу! Ребята поделятся своим опытом и раскроют секреты успешного решения задачи!
🤔 Что будет на ликбезе?
🔸 Подробный разбор условия задачи
🔸 Как команда подошла к решению
🔸 Использованные инструменты и методы
🔸 Возникшие в процессе трудности и их преодоление
🔸 Разбор защиты решения
🔸 Возможность задать вопросы и получить советы от участников хакатона
🗓 Когда: 15.10.24 21:00
🔗 Ссылка на ликбез: https://telemost.yandex.ru/j/26090855745236
Помните, как REU Data Science Club занял второе место на ВШЭ ПСБ.Хак? У вас есть возможность заглянуть за кулисы и узнать, как команда справилась с задачей! Подключайтесь к нашему онлайн-ликбезу! Ребята поделятся своим опытом и раскроют секреты успешного решения задачи!
🤔 Что будет на ликбезе?
🔸 Подробный разбор условия задачи
🔸 Как команда подошла к решению
🔸 Использованные инструменты и методы
🔸 Возникшие в процессе трудности и их преодоление
🔸 Разбор защиты решения
🔸 Возможность задать вопросы и получить советы от участников хакатона
🗓 Когда: 15.10.24 21:00
🔗 Ссылка на ликбез: https://telemost.yandex.ru/j/26090855745236
🔥8❤4
Всем привет!🧡
Уже скоро состоится полезная лекция от спикера Максима Жданова по теме "System Design - Как строить многопользовательские системы".
На этой лекции вы узнаете:
🔸Основные принципы проектирования многопользовательских систем.
🔸Архитектурные особенности и планирование эффективных систем.
🔸Инструменты и методы для обеспечения стабильной работы системы.
🔸Лучшие практики и советы от эксперта для создания качественных систем.
🔸Опыт и рекомендации Максима, которые можно применить в своих проектах.
📅 Дата: 1 ноября, 19:00
🔗 Ссылка на регистрацию
https://docs.google.com/forms/d/e/1FAIpQLScahWs3ojn6J9sVFs3-IuQNFOF2zMpLIDYywNMMyxkPGrapew/viewform?usp=sf_link
❗️Для студентов НЕ из РЭУ регистрация закрывается 30 октября в 23:59❗️
📎Аудитория 201
Ждём вас!🧡
Уже скоро состоится полезная лекция от спикера Максима Жданова по теме "System Design - Как строить многопользовательские системы".
На этой лекции вы узнаете:
🔸Основные принципы проектирования многопользовательских систем.
🔸Архитектурные особенности и планирование эффективных систем.
🔸Инструменты и методы для обеспечения стабильной работы системы.
🔸Лучшие практики и советы от эксперта для создания качественных систем.
🔸Опыт и рекомендации Максима, которые можно применить в своих проектах.
📅 Дата: 1 ноября, 19:00
🔗 Ссылка на регистрацию
https://docs.google.com/forms/d/e/1FAIpQLScahWs3ojn6J9sVFs3-IuQNFOF2zMpLIDYywNMMyxkPGrapew/viewform?usp=sf_link
❗️Для студентов НЕ из РЭУ регистрация закрывается 30 октября в 23:59❗️
📎Аудитория 201
Ждём вас!🧡
🔥9
Всем привет!🧡
Уже скоро будет проходить следующий ликбез от Нины Поповой по теме "Ускорение вычислений на Python".
На ликбезе мы расскажем о своем опыте ускорения расчета кастомной метрики, написанной на языке Python. Разберем способы оптимизации кода про помощи библиотек Numba, CTypes, а также поделимся советами по профилированию кода.
📅 Дата: 28 октября, 21:00
🔗 https://telemost.yandex.ru/j/26906513569892
Уже скоро будет проходить следующий ликбез от Нины Поповой по теме "Ускорение вычислений на Python".
На ликбезе мы расскажем о своем опыте ускорения расчета кастомной метрики, написанной на языке Python. Разберем способы оптимизации кода про помощи библиотек Numba, CTypes, а также поделимся советами по профилированию кода.
📅 Дата: 28 октября, 21:00
🔗 https://telemost.yandex.ru/j/26906513569892
🔥10❤5
Команда из REU DS CLUB приняла участие в хакатоне 24 часа в Т-банке и заняла 6 место 🔥
💛 Хакатон прошел в офисе Т-банка с 26 по 27 октября.
Состав команды REU DS CLUB: Полина Калинкина Team lead, MLE; Андрей Баевский MLE; Илья Цветков MLE; Ирина Комкова Analyst; Лариса Латунова backend, frontend.
📑 Ребята 24 часа работали над разработкой сервиса, который превращает статьи в упрощённый диалог, где отец объясняет дочери тему. Данный диалог выводится в аудио и текстовом формате.
🔶 В первые 12 часов хакатона команда подключала токены, API и трудилась над созданием архитектуры проекта.
🔶 Далее они занимались оборачиванием проекта в Docker и запуском на виртуальной машине.
Фичи, которые были внедрены в проект:
🔸 Расстановка интонаций и эмоциональной окраски, а также решение проблем с размером токенов с помощью Prompt Engineering.
🔸 Сервис может обрабатывать txt, URL и PDF файлы.
🧡 В конечном итоге хакатон стал для команды REU DS CLUB не только испытанием профессиональных навыков, но и возможностью научиться новому, а также принимать стратегические решения в условиях ограниченного времени.
💛 Хакатон прошел в офисе Т-банка с 26 по 27 октября.
Состав команды REU DS CLUB: Полина Калинкина Team lead, MLE; Андрей Баевский MLE; Илья Цветков MLE; Ирина Комкова Analyst; Лариса Латунова backend, frontend.
📑 Ребята 24 часа работали над разработкой сервиса, который превращает статьи в упрощённый диалог, где отец объясняет дочери тему. Данный диалог выводится в аудио и текстовом формате.
🔶 В первые 12 часов хакатона команда подключала токены, API и трудилась над созданием архитектуры проекта.
🔶 Далее они занимались оборачиванием проекта в Docker и запуском на виртуальной машине.
Фичи, которые были внедрены в проект:
🔸 Расстановка интонаций и эмоциональной окраски, а также решение проблем с размером токенов с помощью Prompt Engineering.
🔸 Сервис может обрабатывать txt, URL и PDF файлы.
🧡 В конечном итоге хакатон стал для команды REU DS CLUB не только испытанием профессиональных навыков, но и возможностью научиться новому, а также принимать стратегические решения в условиях ограниченного времени.
🔥23❤1
Привет! 👋🏻 Сегодня мы хотим поделиться с вами подборкой курсов из нашей базы знаний, которые помогут вам вникнуть в GAN (Generative Adversarial Networks).
GAN - это мощный инструмент, который, как правило, используется для создания реалистичных изображений, превращения текста в изображения и улучшения качества фото и видео.
❓ Как работают GAN?
GAN – это дуэт из двух нейронных сетей: генератора и дискриминатора. Генератор создает изображения, а Discriminator пытается отличить поддельные картинки от настоящих. В процессе обучения генератор становится всё лучше в "обмане" дискриминатора, создавая с каждым разом более реалистичные изображения.
Материалы по GAN:
🎨 1. Создание простой GAN, Neurohive
Этот полезный туториал познакомит вас с основами работы алгоритма GAN и поможет создать собственную модель для генерации изображений чисел. Программирование ведется на Python с использованием библиотеки Keras.
👉🏻 neurohive.io/ru/tutorial/simple-gan-python-keras/
🧠 2. Introduction to Deep Learning, MIT
Курс лекций от Массачусетского технологического института на английском языке, который охватывает методы глубокого обучения. Вы изучите многие алгоритмы, в том числе GAN, и научитесь строить нейронные сети в TensorFlow. Для хорошего понимания лекций необходимы базовые знания математического исчисления и линейной алгебры.
👉🏻 introtodeeplearning.com
🖼 3. Deep Learning на Catalyst, Stepik
В этом курсе есть отдельная лекция, посвященная разбору GAN. Также вы найдете семинар с созданием алгоритма для генерации изображений с цифрами.
👉🏻 stepik.org/lesson/433787/step/1?unit=423813
Не забудьте заглянуть в нашу базу знаний! Ссылка:
👉https://reudatascience.yonote.ru/share/ce3c7927-f196-49ba-b755-995eb9101d73/doc/reu-data-science-club-6Fteenn959
Там вы найдете еще больше материалов по GAN, а также информацию по другим темам в области машинного обучения 📚
GAN - это мощный инструмент, который, как правило, используется для создания реалистичных изображений, превращения текста в изображения и улучшения качества фото и видео.
❓ Как работают GAN?
GAN – это дуэт из двух нейронных сетей: генератора и дискриминатора. Генератор создает изображения, а Discriminator пытается отличить поддельные картинки от настоящих. В процессе обучения генератор становится всё лучше в "обмане" дискриминатора, создавая с каждым разом более реалистичные изображения.
Материалы по GAN:
🎨 1. Создание простой GAN, Neurohive
Этот полезный туториал познакомит вас с основами работы алгоритма GAN и поможет создать собственную модель для генерации изображений чисел. Программирование ведется на Python с использованием библиотеки Keras.
👉🏻 neurohive.io/ru/tutorial/simple-gan-python-keras/
🧠 2. Introduction to Deep Learning, MIT
Курс лекций от Массачусетского технологического института на английском языке, который охватывает методы глубокого обучения. Вы изучите многие алгоритмы, в том числе GAN, и научитесь строить нейронные сети в TensorFlow. Для хорошего понимания лекций необходимы базовые знания математического исчисления и линейной алгебры.
👉🏻 introtodeeplearning.com
🖼 3. Deep Learning на Catalyst, Stepik
В этом курсе есть отдельная лекция, посвященная разбору GAN. Также вы найдете семинар с созданием алгоритма для генерации изображений с цифрами.
👉🏻 stepik.org/lesson/433787/step/1?unit=423813
Не забудьте заглянуть в нашу базу знаний! Ссылка:
👉https://reudatascience.yonote.ru/share/ce3c7927-f196-49ba-b755-995eb9101d73/doc/reu-data-science-club-6Fteenn959
Там вы найдете еще больше материалов по GAN, а также информацию по другим темам в области машинного обучения 📚
🔥9❤1
💥 Всем привет!
Приглашаем вас 2 декабря на лекцию по теме “Введение в дизайн контролируемых АБ экспериментов”!
🎙 Спикер:
Николай Войтов - Product owner @ SberAds.
🟠 На примерах из практики поговорим, зачем нужны АА и АБ тесты, как равномерно делить их участников, а также применение ML методов для их оценки.
🟠 Вы узнаете, как формулировать и тестировать продуктовые гипотезы, чтобы принимать обоснованные решения на основе данных.
🟠 Обсудим смысл "статистической значимости" и её роли в интерпретации результатов экспериментов.
🟠 Рассмотрим ключевые виды логических ошибок, их примеры и способы их предотвращения.
🗓 Дата: 2 декабря (понедельник), 19:00
🔗 Ссылка на регистрацию
👉🏻https://vk.com/away.php?to=https%3A%2F%2Fdocs.google.com%2Fforms%2Fd%2Fe%2F1FAIpQLSdFXw_c2DOYmxyb5Jr3CirR7ThaJz99tingEWAeqXaUur21jQ%2Fviewform%3Fusp%3Dsf_link&utf=1
❗️Внимание! Для гостей НЕ из РЭУ регистрация закрывается 1 декабря в 23:59 ❗️
Аудитория будет указана в комментариях
Ждем вас! 🧡
Приглашаем вас 2 декабря на лекцию по теме “Введение в дизайн контролируемых АБ экспериментов”!
🎙 Спикер:
Николай Войтов - Product owner @ SberAds.
🟠 На примерах из практики поговорим, зачем нужны АА и АБ тесты, как равномерно делить их участников, а также применение ML методов для их оценки.
🟠 Вы узнаете, как формулировать и тестировать продуктовые гипотезы, чтобы принимать обоснованные решения на основе данных.
🟠 Обсудим смысл "статистической значимости" и её роли в интерпретации результатов экспериментов.
🟠 Рассмотрим ключевые виды логических ошибок, их примеры и способы их предотвращения.
🗓 Дата: 2 декабря (понедельник), 19:00
🔗 Ссылка на регистрацию
👉🏻https://vk.com/away.php?to=https%3A%2F%2Fdocs.google.com%2Fforms%2Fd%2Fe%2F1FAIpQLSdFXw_c2DOYmxyb5Jr3CirR7ThaJz99tingEWAeqXaUur21jQ%2Fviewform%3Fusp%3Dsf_link&utf=1
❗️Внимание! Для гостей НЕ из РЭУ регистрация закрывается 1 декабря в 23:59 ❗️
Аудитория будет указана в комментариях
Ждем вас! 🧡
❤9
Всем привет! В этом посте мы разберем пару вопросов с DS собеседований!
❓ Где градиент в градиентом бустинге?
Градиентный бустинг — это мощный ансамблевый метод, который использует последовательное добавление деревьев решений для улучшения предсказательной способности модели. Он работает по принципу "учимся на своих ошибках": каждое новое дерево фокусируется на ошибках, допущенных предыдущими деревьями.
Как это происходит?
🔸 Инициализация. Начинаем с базовой модели, которая, например, может быть просто средним значением целевой переменной (конечно, модель может быть и более сложной).
🔸 Вычисление остатков. На каждом шаге мы вычисляем остатки — антиградиент функции потерь относительно текущих предсказаний. Это демонстрирует направление, в котором нужно изменить предсказание, чтобы минимизировать функцию потерь.
🔸 Построение деревьев. На каждом шаге создаётся новое дерево решений, обучающееся на остатках предыдущей модели. Таким образом, новое дерево пытается "исправить" ошибки, сделанные предшествующими деревьями.
🔸 Обновление предсказаний. После того, как новое дерево обучено, его предсказания добавляются к текущим, предварительно домножаясь на некоторый коэффициент (learning rate), контролирующий скорость обучения.
🔸 Переход к следующей итерации. Процесс повторяется: на каждом шаге мы вычисляем новые остатки, строим новые деревья и обновляем предсказания до тех пор, пока не достигнем заданного числа деревьев или не будет достигнут критерий остановки, например, когда улучшения в качестве модели станут незначительными.
То есть такой итеративный метод основан на градиентах, что и даёт ему имя. Каждый новый шаг делает модель всё более точной, и окончательная комбинация всех деревьев позволяет минимизировать ошибки.
❓ Как считается площадь под кривой ROC?
ROC-кривая (Receiver Operating Characteristic) - одна из самых важных метрик для оценки бинарных классификаторов. ROC-кривая показывает, как соотносятся TPR (True Positive Rate — доля положительных объектов, правильно предсказанных положительными) и FPR (False Positive Rate - доля отрицательных объектов, неправильно предсказанных положительными) при различных порогах вероятности классификации.
Но самое интересное — это площадь под ROC-кривой, которая называется AUC (Area Under Curve). AUC — это число, которое интерпретирует качество классификатора в одном значении. AUC принимает значения от 0 до 1, и чем больше AUC, тем лучше работает ваш классификатор.
Формула для вычисления AUC довольно проста:
AUC = Σ (TPR[i] - TPR[i-1]) * (FPR[i] + FPR[i-1]) / 2
Но вычислять AUC по формуле не обязательно — многие библиотеки машинного обучения имеют встроенные функции для расчета AUC по ROC (например, roc_auc_score из sklearn.metrics)
❓ Где градиент в градиентом бустинге?
Градиентный бустинг — это мощный ансамблевый метод, который использует последовательное добавление деревьев решений для улучшения предсказательной способности модели. Он работает по принципу "учимся на своих ошибках": каждое новое дерево фокусируется на ошибках, допущенных предыдущими деревьями.
Как это происходит?
🔸 Инициализация. Начинаем с базовой модели, которая, например, может быть просто средним значением целевой переменной (конечно, модель может быть и более сложной).
🔸 Вычисление остатков. На каждом шаге мы вычисляем остатки — антиградиент функции потерь относительно текущих предсказаний. Это демонстрирует направление, в котором нужно изменить предсказание, чтобы минимизировать функцию потерь.
🔸 Построение деревьев. На каждом шаге создаётся новое дерево решений, обучающееся на остатках предыдущей модели. Таким образом, новое дерево пытается "исправить" ошибки, сделанные предшествующими деревьями.
🔸 Обновление предсказаний. После того, как новое дерево обучено, его предсказания добавляются к текущим, предварительно домножаясь на некоторый коэффициент (learning rate), контролирующий скорость обучения.
🔸 Переход к следующей итерации. Процесс повторяется: на каждом шаге мы вычисляем новые остатки, строим новые деревья и обновляем предсказания до тех пор, пока не достигнем заданного числа деревьев или не будет достигнут критерий остановки, например, когда улучшения в качестве модели станут незначительными.
То есть такой итеративный метод основан на градиентах, что и даёт ему имя. Каждый новый шаг делает модель всё более точной, и окончательная комбинация всех деревьев позволяет минимизировать ошибки.
❓ Как считается площадь под кривой ROC?
ROC-кривая (Receiver Operating Characteristic) - одна из самых важных метрик для оценки бинарных классификаторов. ROC-кривая показывает, как соотносятся TPR (True Positive Rate — доля положительных объектов, правильно предсказанных положительными) и FPR (False Positive Rate - доля отрицательных объектов, неправильно предсказанных положительными) при различных порогах вероятности классификации.
Но самое интересное — это площадь под ROC-кривой, которая называется AUC (Area Under Curve). AUC — это число, которое интерпретирует качество классификатора в одном значении. AUC принимает значения от 0 до 1, и чем больше AUC, тем лучше работает ваш классификатор.
Формула для вычисления AUC довольно проста:
AUC = Σ (TPR[i] - TPR[i-1]) * (FPR[i] + FPR[i-1]) / 2
Но вычислять AUC по формуле не обязательно — многие библиотеки машинного обучения имеют встроенные функции для расчета AUC по ROC (например, roc_auc_score из sklearn.metrics)
❤4👍3
Привет, это Data Science клуб.
Сегодня мы расскажем о двух мощных инструментах, которые помогут вам в построении умных систем и анализе данных: рекомендательных системах и методах кластеризации. 🧠
🎯 Рекомендательные системы: от теории к практике
Хотите узнать, как создать систему, которая будет предлагать пользователям именно то, что им нужно? 📚
🟠 Статья про кросс-доменные рекомендации:
👉🏻 https://www.researchgate.net/publication/294285848_Cross-Domain_Recommender_Systems
(Уровень - Advance)
🟠 Узнайте как решать проблему разреженности данных с помощью ALS и метода переменного направления в статье «Междоменное распределение скрытых факторов посредством неявной матричной факторизации»:
👉🏻 https://airi.net/articles/cross-domain-latent-factors-sharing-via-implicit-matrix-factorization/ (Уровень - Advance)
🧩 Методы кластеризации: от простого к сложному 🧩
🟠 Сравнение различных методов кластеризации — узнайте, какой метод подходит вам лучше всего:
👉🏻 https://www.researchgate.net/publication/220643805_Comparison_of_Clustering_Methods_a_Case_Study_of_Text-Independent_Speaker_Modeling
🟠 Random Swap алгоритм — пример работы и код на Python:
👉🏻 https://github.com/uef-machine-learning/RandomSwap/blob/master/Python/random_swap.py
🟠 Алгоритмы оптимизации в кластеризации — для тех, кто хочет углубиться в математику:
👉🏻 https://mate.unipv.it/gualandi/opt4ml/clustering.pdf
Не упустите шанс расширить свои знания и навыки! 🚀
Сегодня мы расскажем о двух мощных инструментах, которые помогут вам в построении умных систем и анализе данных: рекомендательных системах и методах кластеризации. 🧠
🎯 Рекомендательные системы: от теории к практике
Хотите узнать, как создать систему, которая будет предлагать пользователям именно то, что им нужно? 📚
🟠 Статья про кросс-доменные рекомендации:
👉🏻 https://www.researchgate.net/publication/294285848_Cross-Domain_Recommender_Systems
(Уровень - Advance)
🟠 Узнайте как решать проблему разреженности данных с помощью ALS и метода переменного направления в статье «Междоменное распределение скрытых факторов посредством неявной матричной факторизации»:
👉🏻 https://airi.net/articles/cross-domain-latent-factors-sharing-via-implicit-matrix-factorization/ (Уровень - Advance)
🧩 Методы кластеризации: от простого к сложному 🧩
🟠 Сравнение различных методов кластеризации — узнайте, какой метод подходит вам лучше всего:
👉🏻 https://www.researchgate.net/publication/220643805_Comparison_of_Clustering_Methods_a_Case_Study_of_Text-Independent_Speaker_Modeling
🟠 Random Swap алгоритм — пример работы и код на Python:
👉🏻 https://github.com/uef-machine-learning/RandomSwap/blob/master/Python/random_swap.py
🟠 Алгоритмы оптимизации в кластеризации — для тех, кто хочет углубиться в математику:
👉🏻 https://mate.unipv.it/gualandi/opt4ml/clustering.pdf
Не упустите шанс расширить свои знания и навыки! 🚀
❤5
Всем привет! Сегодня мы хотим поделиться с вами дайджестом на декабрь 📝
1. Data Science Night 2.0: интеллектуальные системы в науке и бизнесе
📅 Когда: 4 декабря
✨ На Data Science Night эксперты из самых разных сфер расскажут о передовых подходах и реальных примерах использования интеллектуальных систем в науке и бизнесе. От проблем внедрения ИИ до мультиагентных систем — вас ждет вечер, наполненный актуальными темами, нетривиальными решениями и живым обменом опытом.
Ссылка 👉🏻 https://event.tedo.ru/data-science-night-event-2024
2. F*CKUP MEETUP
📅 Когда: 5 декабря
💻 F*CKUP MEETUP – это легендарный формат, где IT-специалисты собираются в офисе СберМаркета, чтобы обсудить самое ценное — выводы, полученные из своих ошибок. Спикеры открыто рассказывают о своих неудачах и делятся опытом, чтобы напомнить, что ошибаться нормально, а иногда – просто необходимо.
Ссылка 👉🏻 https://sbermarket.timepad.ru/event/3112371/
3. Хакатон Норникель: интеллектуальные горизонты
📅 Когда: 6 - 8 декабря
💡 Хакатон «Интеллектуальные горизонты» пройдет с 6 по 8 декабря в онлайн-формате с призовым фондом 1,5 млн рублей.
Для кого?
🔸 ML-инженеров различных направлений: DA, ML, CV, LLM Аналитиков
🔸 Студентов и выпускников вузов по техническим и инженерным направлениям
Участники смогут выбрать один из треков: от анализа данных до автоматизации, от экологического мониторинга до создания алгоритмов, которые могут изменить правила игры в индустрии. Разработчики, аналитики и инженеры получат возможность решить актуальные задачи в области цифровизации и устойчивого развития, продемонстрировать свои идеи и найти единомышленников.
Ссылка 👉🏻 https://clck.ru/3Er2Ra
4. Ночь опенсорс библиотек
📅 Когда: 14 декабря
🌙 Яндекс проведёт Ночь опенсорс-библиотек для всех, кто интересуется открытым кодом. Участники смогут стать частью открытого комьюнити, познакомиться с разработчиками знаковых проектов и внести свой вклад в их развитие, даже если это будет первый коммит.
В программе:
🔸 Хакатоны, воркшопы и развлечения от мейнтейнеров опенсорс-проектов в различных стеках.
🔸 Экскурсии и квесты по библиотеке, книжная лавка, концерт и сайлент-диско.
Для кого:
🔸 Фронтендеров — познакомиться с разработкой функциональных интерфейсов в Gravity UI, научиться супербыстро кодить в HTML/CSS с Emmet и автоматизировать задачи с zx
🔸 Бэкендеров — узнать, как используют YDB для решения самых разных задач и как автоматизируют всю документацию в Diplodoc. А плюсовикам будет особенно интересно пообщаться с разработчиками userver
🔸 Мобильных разработчиков — задать все вопросы о кросс-платформенной разработке приложений создателям фреймворка DivKit
🔸 ML-специалистов — познакомиться с реальными кейсами оптимизации обучения с помощью CatBoost и YaFSDP
🔸 Аналитиков — построить дашборд с аналитикой по опенсорсным репозиториям Яндекса в DataLens
Ссылка 👉🏻 https://events.yandex.ru/events/opensourcenight
1. Data Science Night 2.0: интеллектуальные системы в науке и бизнесе
📅 Когда: 4 декабря
✨ На Data Science Night эксперты из самых разных сфер расскажут о передовых подходах и реальных примерах использования интеллектуальных систем в науке и бизнесе. От проблем внедрения ИИ до мультиагентных систем — вас ждет вечер, наполненный актуальными темами, нетривиальными решениями и живым обменом опытом.
Ссылка 👉🏻 https://event.tedo.ru/data-science-night-event-2024
2. F*CKUP MEETUP
📅 Когда: 5 декабря
💻 F*CKUP MEETUP – это легендарный формат, где IT-специалисты собираются в офисе СберМаркета, чтобы обсудить самое ценное — выводы, полученные из своих ошибок. Спикеры открыто рассказывают о своих неудачах и делятся опытом, чтобы напомнить, что ошибаться нормально, а иногда – просто необходимо.
Ссылка 👉🏻 https://sbermarket.timepad.ru/event/3112371/
3. Хакатон Норникель: интеллектуальные горизонты
📅 Когда: 6 - 8 декабря
💡 Хакатон «Интеллектуальные горизонты» пройдет с 6 по 8 декабря в онлайн-формате с призовым фондом 1,5 млн рублей.
Для кого?
🔸 ML-инженеров различных направлений: DA, ML, CV, LLM Аналитиков
🔸 Студентов и выпускников вузов по техническим и инженерным направлениям
Участники смогут выбрать один из треков: от анализа данных до автоматизации, от экологического мониторинга до создания алгоритмов, которые могут изменить правила игры в индустрии. Разработчики, аналитики и инженеры получат возможность решить актуальные задачи в области цифровизации и устойчивого развития, продемонстрировать свои идеи и найти единомышленников.
Ссылка 👉🏻 https://clck.ru/3Er2Ra
4. Ночь опенсорс библиотек
📅 Когда: 14 декабря
🌙 Яндекс проведёт Ночь опенсорс-библиотек для всех, кто интересуется открытым кодом. Участники смогут стать частью открытого комьюнити, познакомиться с разработчиками знаковых проектов и внести свой вклад в их развитие, даже если это будет первый коммит.
В программе:
🔸 Хакатоны, воркшопы и развлечения от мейнтейнеров опенсорс-проектов в различных стеках.
🔸 Экскурсии и квесты по библиотеке, книжная лавка, концерт и сайлент-диско.
Для кого:
🔸 Фронтендеров — познакомиться с разработкой функциональных интерфейсов в Gravity UI, научиться супербыстро кодить в HTML/CSS с Emmet и автоматизировать задачи с zx
🔸 Бэкендеров — узнать, как используют YDB для решения самых разных задач и как автоматизируют всю документацию в Diplodoc. А плюсовикам будет особенно интересно пообщаться с разработчиками userver
🔸 Мобильных разработчиков — задать все вопросы о кросс-платформенной разработке приложений создателям фреймворка DivKit
🔸 ML-специалистов — познакомиться с реальными кейсами оптимизации обучения с помощью CatBoost и YaFSDP
🔸 Аналитиков — построить дашборд с аналитикой по опенсорсным репозиториям Яндекса в DataLens
Ссылка 👉🏻 https://events.yandex.ru/events/opensourcenight
❤2🥰2
Победа на хакатоне HSE Sber RecSys! 🏆
Наши ребята из Клуба Data Science, Полина и Петр, вместе с командой, заняли призовое 3 место среди 97 команд! 🎉
Задача хакатона была создать кросс-доменные рекомендации на основе реальных данных Сбера, а именно интеракций пользователей на сервисах МегаМаркет и Звук.
Команда экспериментировала с разными моделями — CatBoost, LightFM, KNN, SVD и CDIMF, каждая из которых предлагала что-то уникальное. Но именно их финальный подход выделялся особенно. Они применяли ALS (Alternating Least Squares) по отдельности к каждому датасету, а также был сделан рескор для кросс доменности.
Лидерство в лидерборде по этой метрике держали все три дня хакатона! 🚀
Мы гордимся их решением и командной работой!
Наши ребята из Клуба Data Science, Полина и Петр, вместе с командой, заняли призовое 3 место среди 97 команд! 🎉
Задача хакатона была создать кросс-доменные рекомендации на основе реальных данных Сбера, а именно интеракций пользователей на сервисах МегаМаркет и Звук.
Команда экспериментировала с разными моделями — CatBoost, LightFM, KNN, SVD и CDIMF, каждая из которых предлагала что-то уникальное. Но именно их финальный подход выделялся особенно. Они применяли ALS (Alternating Least Squares) по отдельности к каждому датасету, а также был сделан рескор для кросс доменности.
Лидерство в лидерборде по этой метрике держали все три дня хакатона! 🚀
Мы гордимся их решением и командной работой!
🔥23❤5🕊2
📣 Разбор призового места на хакатоне HSE Sber RecSys.
Напоминаем, что наши ребята из REU Data Science Club, Пётр Сокерин и Полина Калинкина, вместе с командой заняли призовое 3 место среди 97 команд на хакатоне HSE Sber RecSys! Еще раз поздравляем их с этим потрясающим достижением! 🎉
Теперь у вас есть уникальная возможность лично послушать разбор решений от самих участников. Пётр и Полина расскажут о том, как они создавали кросс-доменные рекомендации на основе реальных данных Сбера, включая данные о взаимодействиях пользователей с сервисами МегаМаркет и Звук.
💥На ликбезе вы узнаете:
🔶 Как использовался алгоритм ALS (Alternating Least Squares) для создания кросс-доменных рекомендаций и какие другие алгоритмы применялись для решения.
🔶 Подробный разбор самого решения: как команда пришла к подходу и какие шаги были предприняты.
🔶 С какими трудностями столкнулись участники и как они их преодолевали.
❗️Не упустите шанс задать интересующие вас вопросы и получить ценные советы от участников хакатона!
🗓 Когда: 3 декабря (вторник), в 21:00
🔗 Ссылка на ликбез появится позже
Напоминаем, что наши ребята из REU Data Science Club, Пётр Сокерин и Полина Калинкина, вместе с командой заняли призовое 3 место среди 97 команд на хакатоне HSE Sber RecSys! Еще раз поздравляем их с этим потрясающим достижением! 🎉
Теперь у вас есть уникальная возможность лично послушать разбор решений от самих участников. Пётр и Полина расскажут о том, как они создавали кросс-доменные рекомендации на основе реальных данных Сбера, включая данные о взаимодействиях пользователей с сервисами МегаМаркет и Звук.
💥На ликбезе вы узнаете:
🔶 Как использовался алгоритм ALS (Alternating Least Squares) для создания кросс-доменных рекомендаций и какие другие алгоритмы применялись для решения.
🔶 Подробный разбор самого решения: как команда пришла к подходу и какие шаги были предприняты.
🔶 С какими трудностями столкнулись участники и как они их преодолевали.
❗️Не упустите шанс задать интересующие вас вопросы и получить ценные советы от участников хакатона!
🗓 Когда: 3 декабря (вторник), в 21:00
🔗 Ссылка на ликбез появится позже
❤🔥3🕊2