🚀Как ускорить пилотные проекты по анализу больших данных
В этой статье автор расскажет, с какими типовыми проблемами можно столкнуться при внедрении F5 Platform, какой инструмент нужно разработать для их преодоления, и как он помог нам ускорить проведение пилотных проектов, а также вы узнаете почему платформенное решение — это сложный ИТ‑продукт, требующий развитой инфраструктуры и квалифицированных специалистов.
Читать...
В этой статье автор расскажет, с какими типовыми проблемами можно столкнуться при внедрении F5 Platform, какой инструмент нужно разработать для их преодоления, и как он помог нам ускорить проведение пилотных проектов, а также вы узнаете почему платформенное решение — это сложный ИТ‑продукт, требующий развитой инфраструктуры и квалифицированных специалистов.
Читать...
👤Процесс ELT: основные компоненты, преимущества и инструменты создания
В этой статье автор расскажет, почему интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности, и почему один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT, а также вы узнаете какие преимущества и распространённые способы применения в процессе ELT.
Читать...
В этой статье автор расскажет, почему интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности, и почему один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT, а также вы узнаете какие преимущества и распространённые способы применения в процессе ELT.
Читать...
😵Реализация функции потерь в Python
В этой статье автор расскажет, почему функции потерь Python являются важной частью моделей машинного обучения, и почему эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического, а также вы узнаете какие способы существуют стобы вычислить разницу.
Читать...
В этой статье автор расскажет, почему функции потерь Python являются важной частью моделей машинного обучения, и почему эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического, а также вы узнаете какие способы существуют стобы вычислить разницу.
Читать...
👤Как тестировать в Databricks: Nutter Framework
В этой статье автор расскажет, почему главная цель фреймворка Nutter - дать возможность легко и быстро тестировать ноутбуки в Databricks, и какие фреймворки для тестирования есть в Python, а также вы узнаете как проводить интеграционное тестирование сервисов, написанных как ноутбуки в Databricks.
Читать...
В этой статье автор расскажет, почему главная цель фреймворка Nutter - дать возможность легко и быстро тестировать ноутбуки в Databricks, и какие фреймворки для тестирования есть в Python, а также вы узнаете как проводить интеграционное тестирование сервисов, написанных как ноутбуки в Databricks.
Читать...
👨💻Меры центральности в Network Science
В этой статье автор расскажет, почему область применения графов совсем не ограничивается одним только Process Mining, и как создать модель, которая позволяет удобно работать с данными, представляющими из себя объекты, между которыми можно выделить связи, а также вы узнаете какие самые основные и наиболее часто используемые меры центральности в Network Science.
Читать...
В этой статье автор расскажет, почему область применения графов совсем не ограничивается одним только Process Mining, и как создать модель, которая позволяет удобно работать с данными, представляющими из себя объекты, между которыми можно выделить связи, а также вы узнаете какие самые основные и наиболее часто используемые меры центральности в Network Science.
Читать...
😵Структурирование кредитного портфеля методами машинного обучения
В этой статье автор расскажет, почему зачем кредитные организации естественным образом располагают большими портфелями клиентских кредитов, и почему разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже очень давно, а также вы узнаете почему для задачи структуризации кредитного портфеля, применимость таких методов машинного обучения как кластеризация, классификация или различные версии деревьев очень ограничена.
Читать...
В этой статье автор расскажет, почему зачем кредитные организации естественным образом располагают большими портфелями клиентских кредитов, и почему разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже очень давно, а также вы узнаете почему для задачи структуризации кредитного портфеля, применимость таких методов машинного обучения как кластеризация, классификация или различные версии деревьев очень ограничена.
Читать...
😎Как разработать модель выявления связанных компаний на основании анализа транзакций
В этой статье автор расскажет, какие данные из всего пула транзакций могут нам помочь, и как нам преобразовать данные транзакций так, чтобы вытащить максимум информации, а также вы узнаете почему факторы, влияющие на дефолт по заемщику должны отличаться от факторов, выявляющих наличие связей между юридическими лицами.
Читать...
В этой статье автор расскажет, какие данные из всего пула транзакций могут нам помочь, и как нам преобразовать данные транзакций так, чтобы вытащить максимум информации, а также вы узнаете почему факторы, влияющие на дефолт по заемщику должны отличаться от факторов, выявляющих наличие связей между юридическими лицами.
Читать...
😉Гайд по созданию Big Data-проектов в облаке
В этой статье автор расскажет, почему компании выбирают облака для работы с большими данными, и почему в Big Data-проектах большое значение имеет концепция архитектуры хранилища, а также вы узнаете зачем для каждого из этапов работы с большими данными нужно подобрать оптимальный набор инструментов с учетом нагрузки и задач.
Читать...
В этой статье автор расскажет, почему компании выбирают облака для работы с большими данными, и почему в Big Data-проектах большое значение имеет концепция архитектуры хранилища, а также вы узнаете зачем для каждого из этапов работы с большими данными нужно подобрать оптимальный набор инструментов с учетом нагрузки и задач.
Читать...
😍Генерация DAG в Apache Airflow
В этой статье автор расскажет, почему самая типовая задача для дата‑инженера — это перенести данные из реплики/боевой OLTP DB в аналитическое хранилище, и почему в данной задаче обычно нужно переносить несколько таблиц, а также вы узнаете зачем нужно всегда использовать отдельную папку для генерируемых DAG.
Читать...
В этой статье автор расскажет, почему самая типовая задача для дата‑инженера — это перенести данные из реплики/боевой OLTP DB в аналитическое хранилище, и почему в данной задаче обычно нужно переносить несколько таблиц, а также вы узнаете зачем нужно всегда использовать отдельную папку для генерируемых DAG.
Читать...
👤Как оптимизировать хранение, когда данных слишком много
В этой статье автор расскажет, почему стоимость жестких дисков и твердотельных накопителей постепенно снижается, и как Zstd — обеспечивает сжатие без потерь, а также вы узнаете почему новый метод сжатия Brotli заточен под работу с небольшими текстовыми документами в вебе.
Читать...
В этой статье автор расскажет, почему стоимость жестких дисков и твердотельных накопителей постепенно снижается, и как Zstd — обеспечивает сжатие без потерь, а также вы узнаете почему новый метод сжатия Brotli заточен под работу с небольшими текстовыми документами в вебе.
Читать...
😶🌫️Что такое Self-Service BI и зачем он нужен
В этой статье автор расскажет, как наделить пользователей возможностью самостоятельно исследовать и использовать данные для принятия осознанных управленческих решений, и как повысить культуру и навыки работы с данными, а также вы узнаете какие есть основные подходы к построению Business Intelligence, и почему важен процесс Self-Service.
Читать...
В этой статье автор расскажет, как наделить пользователей возможностью самостоятельно исследовать и использовать данные для принятия осознанных управленческих решений, и как повысить культуру и навыки работы с данными, а также вы узнаете какие есть основные подходы к построению Business Intelligence, и почему важен процесс Self-Service.
Читать...
👤Зачем мы моделируем импульсные нейронные сети и с помощью чего это делаем
В этой статье автор расскажет, почему обычно нейросети получают на вход огромное количество данных, и почему получаемый сетью поток данных должен быть структурирован, а также вы узнаете почему эффективность реализации ИНС в специализированном нейрочипе зависит прежде всего от нахождения удачных компромиссов между функциональными возможностями нейрона.
Читать...
В этой статье автор расскажет, почему обычно нейросети получают на вход огромное количество данных, и почему получаемый сетью поток данных должен быть структурирован, а также вы узнаете почему эффективность реализации ИНС в специализированном нейрочипе зависит прежде всего от нахождения удачных компромиссов между функциональными возможностями нейрона.
Читать...
🫠Выжить без cookies: как мы объединили CDP и сквозную аналитику для компании-автопроизводителя
В этой статье автор расскажет, зачем все известные нам браузеры отказываются от сбора сторонних cookies, и почему один из лучших способов адаптации к новой cookieless‑реальности — это сбор и анализ своих собственных данных, а также вы узнаете почему большинство экспертов сходятся на мнении, что нужно сконцентрироваться на сборе собственных данных.
Читать...
В этой статье автор расскажет, зачем все известные нам браузеры отказываются от сбора сторонних cookies, и почему один из лучших способов адаптации к новой cookieless‑реальности — это сбор и анализ своих собственных данных, а также вы узнаете почему большинство экспертов сходятся на мнении, что нужно сконцентрироваться на сборе собственных данных.
Читать...
😎Заповеди начинающего Data Scientist
В этой статье автор расскажет, почему никогда нельзя обучать модель на тесте, и как строчка
может полностью испортить ваш эксперимент, а также вы узнаете что делать если в коде есть какая-то случайность (случайное разбиение на train и test, случайная инициализация и т. д.).
Читать...
В этой статье автор расскажет, почему никогда нельзя обучать модель на тесте, и как строчка
X_test_scaled = scaler.fit_trasnform(X_test)может полностью испортить ваш эксперимент, а также вы узнаете что делать если в коде есть какая-то случайность (случайное разбиение на train и test, случайная инициализация и т. д.).
Читать...
📊Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё
В этой статье автор расскажет, как диаграммы помогают визуализировать простые, и самые сложные наборы данных, и почему древовидную диаграмму несложно делать посредством Plotly, а также вы узнаете почему для создания интерактивной диаграммы лучше использовать библиотеку Plotly, и как она упрощает процесс добавления интерактивности.
Читать...
В этой статье автор расскажет, как диаграммы помогают визуализировать простые, и самые сложные наборы данных, и почему древовидную диаграмму несложно делать посредством Plotly, а также вы узнаете почему для создания интерактивной диаграммы лучше использовать библиотеку Plotly, и как она упрощает процесс добавления интерактивности.
Читать...
👍1
🤖Сassandra для бедных — пускаем в ход HDD
В этой статье автор расскажет, почему Cost reduction - очень популярное направление, особенно в дни кризиса IT, и зачем в таблицах, где скорость чтения критична использовать resource intensive Leveled сompaction strategy, а также вы узнаете как можно отказаться от Cassandra на SSD.
Читать...
В этой статье автор расскажет, почему Cost reduction - очень популярное направление, особенно в дни кризиса IT, и зачем в таблицах, где скорость чтения критична использовать resource intensive Leveled сompaction strategy, а также вы узнаете как можно отказаться от Cassandra на SSD.
Читать...
👤Фундаментальные концепции переобучения и недообучения в машинном обучении
В этой статье автор расскажет, почему одели машинного обучения никогда не могут делать идеальные прогнозы, и почему для каждого разделения перекрестной проверки процедура обучает модель на всех красных образцах и оценивает оценку модели на синих образцах, а также вы узнаете как можно получить информацию о времени для подгонки и прогнозирования на каждой итерации перекрестной проверки.
Читать...
В этой статье автор расскажет, почему одели машинного обучения никогда не могут делать идеальные прогнозы, и почему для каждого разделения перекрестной проверки процедура обучает модель на всех красных образцах и оценивает оценку модели на синих образцах, а также вы узнаете как можно получить информацию о времени для подгонки и прогнозирования на каждой итерации перекрестной проверки.
Читать...
🤪Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark
В этой статье автор расскажет, почему рано или поздно объем обрабатываемых данных превосходит возможности Pandas, и возникает необходимость в распределенных вычислениях, и какие могут быть проблемы, с которыми сталкиваются новички и даже опытные пользователи при использовании Spark, а также вы узнаете почему синтаксис и использование Spark и Pandas сильно отличаются.
Читать...
В этой статье автор расскажет, почему рано или поздно объем обрабатываемых данных превосходит возможности Pandas, и возникает необходимость в распределенных вычислениях, и какие могут быть проблемы, с которыми сталкиваются новички и даже опытные пользователи при использовании Spark, а также вы узнаете почему синтаксис и использование Spark и Pandas сильно отличаются.
Читать...
📊Pyspark. Анализ больших данных, когда Pandas не достаточно
В этой статье автор расскажет, почему Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа, и как как PySpark может выручать в условиях нехватки мощностей для обработки данных, а также вы узнаете как Pyarrow может значительно ускорять работу pyspark.
Читать...
В этой статье автор расскажет, почему Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа, и как как PySpark может выручать в условиях нехватки мощностей для обработки данных, а также вы узнаете как Pyarrow может значительно ускорять работу pyspark.
Читать...
😮Кластеризация текста в PySpark
В этой статье автор расскажет, почему вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать, и как в таком случае нам поможет кластеризация текста, которая позволит получить представление о данных, а также вы узнаете как CountVectorizer заменит текст на разреженный вектор.
Читать...
В этой статье автор расскажет, почему вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать, и как в таком случае нам поможет кластеризация текста, которая позволит получить представление о данных, а также вы узнаете как CountVectorizer заменит текст на разреженный вектор.
Читать...