🤔Что нужно знать на позицию junior Data Science и как подготовиться к собеседованию
В этой статье авто расскажет, почему Data Science является одной из самых востребованных, высокооплачиваемых и перспективных профессий в современном мире, и почему каждый работодатель хотел бы, чтобы junior мог работать без постоянного контроля и развивался под руководством тимлида, а также вы узнаете зачем нужно изучить основы математического анализа, линейной алгебры и теории вероятностей.
Читать...
В этой статье авто расскажет, почему Data Science является одной из самых востребованных, высокооплачиваемых и перспективных профессий в современном мире, и почему каждый работодатель хотел бы, чтобы junior мог работать без постоянного контроля и развивался под руководством тимлида, а также вы узнаете зачем нужно изучить основы математического анализа, линейной алгебры и теории вероятностей.
Читать...
🤔Как структурировать проекты машинного обучения с помощью GitHub и VS Code
В этой статье вы узнаете, как хорошо продуманный процесс структурирования проектов машинного обучения поможет быстро создавать новые репозитории GitHub и с самого начала ориентироваться на элегантную программную архитектуру, и почему когда пишешь код на Python в VS Code, многое зависит от анализатора кода и инструмента форматирования, а также вы узнаете почему в качестве диспетчера среды для Python лучше использовать Miniconda.
Читать...
В этой статье вы узнаете, как хорошо продуманный процесс структурирования проектов машинного обучения поможет быстро создавать новые репозитории GitHub и с самого начала ориентироваться на элегантную программную архитектуру, и почему когда пишешь код на Python в VS Code, многое зависит от анализатора кода и инструмента форматирования, а также вы узнаете почему в качестве диспетчера среды для Python лучше использовать Miniconda.
Читать...
👤PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать
В этой статье автор расскажет, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы, и почему аналитику нужно не только учиться писать код на Spark, но и важно уметь правильно инициализировать сессию и запрашивать ресурсы, а также вы узнаете почему драйвер в Spark выполняет две основных задачи: планирование расчётов и сбор результатов.
Читать...
В этой статье автор расскажет, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы, и почему аналитику нужно не только учиться писать код на Spark, но и важно уметь правильно инициализировать сессию и запрашивать ресурсы, а также вы узнаете почему драйвер в Spark выполняет две основных задачи: планирование расчётов и сбор результатов.
Читать...
👨💻Новые горизонты в оценке рисков: как источники данных помогают создать точные модели
В этой статье автор расскажет, для чего вообще нужны скоринговые модели в банке, и как скоринговые модели и модели оценки вероятности дефолта заемщика (PD модели) оказывают существенное влияние на все процессы банка и его доход, а также вы узнаете почему такие модели используются как при принятии решений по заемщикам в качестве Cut-off при одобрении сделки, так и в подходах Risk Based Limit (RBL), Risk Based Pricing (RBP).
Читать...
В этой статье автор расскажет, для чего вообще нужны скоринговые модели в банке, и как скоринговые модели и модели оценки вероятности дефолта заемщика (PD модели) оказывают существенное влияние на все процессы банка и его доход, а также вы узнаете почему такие модели используются как при принятии решений по заемщикам в качестве Cut-off при одобрении сделки, так и в подходах Risk Based Limit (RBL), Risk Based Pricing (RBP).
Читать...
🧐DevOps для данных: как ускорить обработку и передачу информации за счет принципов DataOps
В этой статье автор расскажет, почему для создания продукта данных приходится использовать более крупные наборы технологий, чем в случае с отдельным программным продуктом, и почему данные обычно поступают из разных источников и часто перемещаются по системе нелинейно, а также вы узнаете как DataOps помогает упростить проектировании системы с помощью концепции центрального репозитория, который служит единым источником истины для любого кода и конфигурации в вашей системе.
Читать...
В этой статье автор расскажет, почему для создания продукта данных приходится использовать более крупные наборы технологий, чем в случае с отдельным программным продуктом, и почему данные обычно поступают из разных источников и часто перемещаются по системе нелинейно, а также вы узнаете как DataOps помогает упростить проектировании системы с помощью концепции центрального репозитория, который служит единым источником истины для любого кода и конфигурации в вашей системе.
Читать...
🤔Big Data в облаках
В этой статье автор расскажет, почему данные, к которым не требуется быстрый доступ, часто предпочитают “охладить”, их удаляют с дорогих дисков основной платформы хранения (DWH или Data Lake) и перемещают в архив, и почему технически архив может быть устроен как массив устройств хранения, а также вы узнаете почему в качестве платформы для DWH или Data Lake может быть выбрана одна из MPP-систем, часто разворачиваемых on-prem.
Читать...
В этой статье автор расскажет, почему данные, к которым не требуется быстрый доступ, часто предпочитают “охладить”, их удаляют с дорогих дисков основной платформы хранения (DWH или Data Lake) и перемещают в архив, и почему технически архив может быть устроен как массив устройств хранения, а также вы узнаете почему в качестве платформы для DWH или Data Lake может быть выбрана одна из MPP-систем, часто разворачиваемых on-prem.
Читать...
👤Лучшие практики при работе с мастер-данными
В этой статье автор расскажет, почему основная цель управления мастер‑данными — сформировать единое представление об объектах, над которыми компания осуществляет свою деятельность, и почему когда офлайн‑компании начали запускать онлайн‑сервисы, управление мастер‑данными потребовало своевременной модернизации для соответствия новой реальности, а также вы узнаете почему если вы рассылаете изменения в мастер данных, то обязательно нужно реализовать метод инициализации нового потребителя.
Читать...
В этой статье автор расскажет, почему основная цель управления мастер‑данными — сформировать единое представление об объектах, над которыми компания осуществляет свою деятельность, и почему когда офлайн‑компании начали запускать онлайн‑сервисы, управление мастер‑данными потребовало своевременной модернизации для соответствия новой реальности, а также вы узнаете почему если вы рассылаете изменения в мастер данных, то обязательно нужно реализовать метод инициализации нового потребителя.
Читать...
🤠Частотный vs байесовский подходы: оцениваем True Positive Rate при неполной разметке данных
В этой статье автор расскажет, как на основе серии проверки гипотез получить доверительный интервал, используя под капотом гипергеометрическое распределение, что будет, если скрестить биномиальное распределение с бета-распределением, и как этот гибрид используется в качестве сопряженного априорного распределения для гипергеометрического распределения, а также вы узнаете почему аналитики центра должны расследовать каждый алерт и в случае обнаружения угроз предупреждать клиентов, формируя рекомендации по устранению опасности.
Читать...
В этой статье автор расскажет, как на основе серии проверки гипотез получить доверительный интервал, используя под капотом гипергеометрическое распределение, что будет, если скрестить биномиальное распределение с бета-распределением, и как этот гибрид используется в качестве сопряженного априорного распределения для гипергеометрического распределения, а также вы узнаете почему аналитики центра должны расследовать каждый алерт и в случае обнаружения угроз предупреждать клиентов, формируя рекомендации по устранению опасности.
Читать...
🖥Кто я аналитик данных или датасаентист
В этой статье автор расскажет, почему в 50% статей в интернете написано, что аналитик данных и Data Scientist это одно и тоже, а другие 50% - за абсолютную разницу данных профессий, и почему одной из ключевых задач аналитика является обработка данных, а также вы узнаете почему аналитическая работа часто предполагает работу в команде, особенно над крупным проектом, взаимодействие с другими сотрудниками, сбор информации для анализа.
Читать...
В этой статье автор расскажет, почему в 50% статей в интернете написано, что аналитик данных и Data Scientist это одно и тоже, а другие 50% - за абсолютную разницу данных профессий, и почему одной из ключевых задач аналитика является обработка данных, а также вы узнаете почему аналитическая работа часто предполагает работу в команде, особенно над крупным проектом, взаимодействие с другими сотрудниками, сбор информации для анализа.
Читать...
🧠Как упростить анализ данных с помощью использования готовой виртуальной машины для аналитики
В этой статье автор расскажет, почему раньше для исследования данных и разработки моделей можно было выбрать один из трех путей, и как можно настроить весь набор инструментов на своем компьютере или на арендованной инфраструктуре самостоятельно, а также вы узнаете в текущих условиях работать одновременно с несколькими SaaS не всегда удобно.
Читать...
В этой статье автор расскажет, почему раньше для исследования данных и разработки моделей можно было выбрать один из трех путей, и как можно настроить весь набор инструментов на своем компьютере или на арендованной инфраструктуре самостоятельно, а также вы узнаете в текущих условиях работать одновременно с несколькими SaaS не всегда удобно.
Читать...
👤Пять причин, по которым вам нужны синтетические данные
В этой статье автор расскажет, почему сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием, и почему у этих данных могут быть проблемы с качеством, разнообразием и количеством, а также вы узнаете какие проблемы можно решать с помощью синтетических данных.
Читать...
В этой статье автор расскажет, почему сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием, и почему у этих данных могут быть проблемы с качеством, разнообразием и количеством, а также вы узнаете какие проблемы можно решать с помощью синтетических данных.
Читать...
💡Неудачный опыт: выявление аномалий в данных методами кластеризации
В этой статье автор расскажет, почему модель машинного обучения не может воспринимать текст в принципе, и как для визуализации результатов работы моделей можно использовать стохастическое вложение соседей с t-распределением, а также вы узнаете почему адекватные результаты показали только две модели: DBSCAN и иерархическая кластеризация.
Читать...
В этой статье автор расскажет, почему модель машинного обучения не может воспринимать текст в принципе, и как для визуализации результатов работы моделей можно использовать стохастическое вложение соседей с t-распределением, а также вы узнаете почему адекватные результаты показали только две модели: DBSCAN и иерархическая кластеризация.
Читать...
📱Как определить оптимальную подпоследовательность тем при автоматизации чатов
В этой статье автор расскажет, как автоматизируя чаты, можно снять типовые вопросы с агентов, высвобождая человеческий ресурс на действительно сложные задачи, а боту оставить рутину, и почему автоматизация чатов подразумевает целый спектр работ: обучение ML моделей новым темам, доработка функционала бота, подготовка текстов ответов их переводов и тестирование, а также вы узнаете почему автоматизация тем — очень растянутый по времени процесс.
Читать...
В этой статье автор расскажет, как автоматизируя чаты, можно снять типовые вопросы с агентов, высвобождая человеческий ресурс на действительно сложные задачи, а боту оставить рутину, и почему автоматизация чатов подразумевает целый спектр работ: обучение ML моделей новым темам, доработка функционала бота, подготовка текстов ответов их переводов и тестирование, а также вы узнаете почему автоматизация тем — очень растянутый по времени процесс.
Читать...
⚡️Clickhouse: сжимаем данные эффективно
В этой статье автор расскажет, какой есть способ оптимизации хранения данных и запросов, который поможет ускорить процесс выполнения задачи с помощью использования кодеков сжатия в колонках, и какие результаты можно получить при использовании кодеков, а также вы узнаете почему в clickhouse есть несколько алгоритмов сжатия.
Читать...
В этой статье автор расскажет, какой есть способ оптимизации хранения данных и запросов, который поможет ускорить процесс выполнения задачи с помощью использования кодеков сжатия в колонках, и какие результаты можно получить при использовании кодеков, а также вы узнаете почему в clickhouse есть несколько алгоритмов сжатия.
Читать...
🚀Как ускорить пилотные проекты по анализу больших данных
В этой статье автор расскажет, с какими типовыми проблемами можно столкнуться при внедрении F5 Platform, какой инструмент нужно разработать для их преодоления, и как он помог нам ускорить проведение пилотных проектов, а также вы узнаете почему платформенное решение — это сложный ИТ‑продукт, требующий развитой инфраструктуры и квалифицированных специалистов.
Читать...
В этой статье автор расскажет, с какими типовыми проблемами можно столкнуться при внедрении F5 Platform, какой инструмент нужно разработать для их преодоления, и как он помог нам ускорить проведение пилотных проектов, а также вы узнаете почему платформенное решение — это сложный ИТ‑продукт, требующий развитой инфраструктуры и квалифицированных специалистов.
Читать...
👤Процесс ELT: основные компоненты, преимущества и инструменты создания
В этой статье автор расскажет, почему интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности, и почему один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT, а также вы узнаете какие преимущества и распространённые способы применения в процессе ELT.
Читать...
В этой статье автор расскажет, почему интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности, и почему один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT, а также вы узнаете какие преимущества и распространённые способы применения в процессе ELT.
Читать...
😵Реализация функции потерь в Python
В этой статье автор расскажет, почему функции потерь Python являются важной частью моделей машинного обучения, и почему эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического, а также вы узнаете какие способы существуют стобы вычислить разницу.
Читать...
В этой статье автор расскажет, почему функции потерь Python являются важной частью моделей машинного обучения, и почему эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического, а также вы узнаете какие способы существуют стобы вычислить разницу.
Читать...
👤Как тестировать в Databricks: Nutter Framework
В этой статье автор расскажет, почему главная цель фреймворка Nutter - дать возможность легко и быстро тестировать ноутбуки в Databricks, и какие фреймворки для тестирования есть в Python, а также вы узнаете как проводить интеграционное тестирование сервисов, написанных как ноутбуки в Databricks.
Читать...
В этой статье автор расскажет, почему главная цель фреймворка Nutter - дать возможность легко и быстро тестировать ноутбуки в Databricks, и какие фреймворки для тестирования есть в Python, а также вы узнаете как проводить интеграционное тестирование сервисов, написанных как ноутбуки в Databricks.
Читать...
👨💻Меры центральности в Network Science
В этой статье автор расскажет, почему область применения графов совсем не ограничивается одним только Process Mining, и как создать модель, которая позволяет удобно работать с данными, представляющими из себя объекты, между которыми можно выделить связи, а также вы узнаете какие самые основные и наиболее часто используемые меры центральности в Network Science.
Читать...
В этой статье автор расскажет, почему область применения графов совсем не ограничивается одним только Process Mining, и как создать модель, которая позволяет удобно работать с данными, представляющими из себя объекты, между которыми можно выделить связи, а также вы узнаете какие самые основные и наиболее часто используемые меры центральности в Network Science.
Читать...
😵Структурирование кредитного портфеля методами машинного обучения
В этой статье автор расскажет, почему зачем кредитные организации естественным образом располагают большими портфелями клиентских кредитов, и почему разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже очень давно, а также вы узнаете почему для задачи структуризации кредитного портфеля, применимость таких методов машинного обучения как кластеризация, классификация или различные версии деревьев очень ограничена.
Читать...
В этой статье автор расскажет, почему зачем кредитные организации естественным образом располагают большими портфелями клиентских кредитов, и почему разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже очень давно, а также вы узнаете почему для задачи структуризации кредитного портфеля, применимость таких методов машинного обучения как кластеризация, классификация или различные версии деревьев очень ограничена.
Читать...
😎Как разработать модель выявления связанных компаний на основании анализа транзакций
В этой статье автор расскажет, какие данные из всего пула транзакций могут нам помочь, и как нам преобразовать данные транзакций так, чтобы вытащить максимум информации, а также вы узнаете почему факторы, влияющие на дефолт по заемщику должны отличаться от факторов, выявляющих наличие связей между юридическими лицами.
Читать...
В этой статье автор расскажет, какие данные из всего пула транзакций могут нам помочь, и как нам преобразовать данные транзакций так, чтобы вытащить максимум информации, а также вы узнаете почему факторы, влияющие на дефолт по заемщику должны отличаться от факторов, выявляющих наличие связей между юридическими лицами.
Читать...