🤖Сassandra для бедных — пускаем в ход HDD
В этой статье автор расскажет, почему Cost reduction - очень популярное направление, особенно в дни кризиса IT, и зачем в таблицах, где скорость чтения критична использовать resource intensive Leveled сompaction strategy, а также вы узнаете как можно отказаться от Cassandra на SSD.
Читать...
В этой статье автор расскажет, почему Cost reduction - очень популярное направление, особенно в дни кризиса IT, и зачем в таблицах, где скорость чтения критична использовать resource intensive Leveled сompaction strategy, а также вы узнаете как можно отказаться от Cassandra на SSD.
Читать...
👤Фундаментальные концепции переобучения и недообучения в машинном обучении
В этой статье автор расскажет, почему одели машинного обучения никогда не могут делать идеальные прогнозы, и почему для каждого разделения перекрестной проверки процедура обучает модель на всех красных образцах и оценивает оценку модели на синих образцах, а также вы узнаете как можно получить информацию о времени для подгонки и прогнозирования на каждой итерации перекрестной проверки.
Читать...
В этой статье автор расскажет, почему одели машинного обучения никогда не могут делать идеальные прогнозы, и почему для каждого разделения перекрестной проверки процедура обучает модель на всех красных образцах и оценивает оценку модели на синих образцах, а также вы узнаете как можно получить информацию о времени для подгонки и прогнозирования на каждой итерации перекрестной проверки.
Читать...
🤪Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark
В этой статье автор расскажет, почему рано или поздно объем обрабатываемых данных превосходит возможности Pandas, и возникает необходимость в распределенных вычислениях, и какие могут быть проблемы, с которыми сталкиваются новички и даже опытные пользователи при использовании Spark, а также вы узнаете почему синтаксис и использование Spark и Pandas сильно отличаются.
Читать...
В этой статье автор расскажет, почему рано или поздно объем обрабатываемых данных превосходит возможности Pandas, и возникает необходимость в распределенных вычислениях, и какие могут быть проблемы, с которыми сталкиваются новички и даже опытные пользователи при использовании Spark, а также вы узнаете почему синтаксис и использование Spark и Pandas сильно отличаются.
Читать...
📊Pyspark. Анализ больших данных, когда Pandas не достаточно
В этой статье автор расскажет, почему Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа, и как как PySpark может выручать в условиях нехватки мощностей для обработки данных, а также вы узнаете как Pyarrow может значительно ускорять работу pyspark.
Читать...
В этой статье автор расскажет, почему Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа, и как как PySpark может выручать в условиях нехватки мощностей для обработки данных, а также вы узнаете как Pyarrow может значительно ускорять работу pyspark.
Читать...
😮Кластеризация текста в PySpark
В этой статье автор расскажет, почему вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать, и как в таком случае нам поможет кластеризация текста, которая позволит получить представление о данных, а также вы узнаете как CountVectorizer заменит текст на разреженный вектор.
Читать...
В этой статье автор расскажет, почему вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать, и как в таком случае нам поможет кластеризация текста, которая позволит получить представление о данных, а также вы узнаете как CountVectorizer заменит текст на разреженный вектор.
Читать...
😵Как мы распараллелили CatBoost на Spark
В этой статье автор расскажет, как можно сконфигурировать оператор, а на HDFS положить необходимые jars, и как поставить локальный CatBoost из скачанных джарников, а также вы узнаете как полностью снять нагрузку с Kubernetes-кластера и ускорить вычисления.
Читать...
В этой статье автор расскажет, как можно сконфигурировать оператор, а на HDFS положить необходимые jars, и как поставить локальный CatBoost из скачанных джарников, а также вы узнаете как полностью снять нагрузку с Kubernetes-кластера и ускорить вычисления.
Читать...
😎Шесть шагов для создания более качественных моделей Computer Vision
В этой статье автор расскажет, какие есть способы применения моделей компьютерного зрения в реальном мире, и чем модели компьютерного зрения отличаются от моделей машинного обучения, а также вы узнаете как применять модели компьютерного зрения в реальном времени.
Читать...
В этой статье автор расскажет, какие есть способы применения моделей компьютерного зрения в реальном мире, и чем модели компьютерного зрения отличаются от моделей машинного обучения, а также вы узнаете как применять модели компьютерного зрения в реальном времени.
Читать...
🧑🏼💻Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков
В этой статье автор расскажет, почему сбор информации о клиентах, услугах, потреблении и оплатах производиться разными системами, и почему данные агрегируются в таблицах с разными структурами, не связанными общими признаками и логикой, а также вы узнаете зачем нужны разные роли аналитиков, которые могли бы работать параллельно и иметь возможность фокусироваться на определенных задачах.
Читать...
В этой статье автор расскажет, почему сбор информации о клиентах, услугах, потреблении и оплатах производиться разными системами, и почему данные агрегируются в таблицах с разными структурами, не связанными общими признаками и логикой, а также вы узнаете зачем нужны разные роли аналитиков, которые могли бы работать параллельно и иметь возможность фокусироваться на определенных задачах.
Читать...
😮Применение Python для сбора и предобработки данных цифрового следа
В этой статье автор расскажет, как можно выполнить отправку HTTP‑запроса веб‑серверу поисковика с упоминанием интересующего объекта с помощью библиотеки «Requests«, и как можно выполнить получение ссылки на страницу в интернете про интересующий объект из ответа веб‑сервера с помощью «Beautiful Soup», а также вы узнаете как собирать цифровой след программными инструментами.
Читать...
В этой статье автор расскажет, как можно выполнить отправку HTTP‑запроса веб‑серверу поисковика с упоминанием интересующего объекта с помощью библиотеки «Requests«, и как можно выполнить получение ссылки на страницу в интернете про интересующий объект из ответа веб‑сервера с помощью «Beautiful Soup», а также вы узнаете как собирать цифровой след программными инструментами.
Читать...
👤Практический опыт проектирования систем графового анализа
В этой статье автор расскажет, почему ни одна система не обладает достойным функционалом пользовательского графического интерфейса из коробки, и почему в части GUI-интерфейса администрирования встречаются вполне интересные и зрелые решения, закрывающие большинство требований, а также вы узнаете почему некоторые популярные системы имеют сильно урезанный функционал в так называемой бесплатной community edition.
Читать...
В этой статье автор расскажет, почему ни одна система не обладает достойным функционалом пользовательского графического интерфейса из коробки, и почему в части GUI-интерфейса администрирования встречаются вполне интересные и зрелые решения, закрывающие большинство требований, а также вы узнаете почему некоторые популярные системы имеют сильно урезанный функционал в так называемой бесплатной community edition.
Читать...
😈Масштабируемая Big Data система в Kubernetes с использованием Spark и Cassandra
В этой статье автор расскажет, как организовать систему распределенного машинного обучения на GPU NVidia, используя язык Java с фреймворками Spring, Spark ML, XGBoost, DML в standalone кластере Spark, и как запустить Spark Jobs в Kubernetes в режимах client и cluster, а также вы узнаете почему для Spark Driver необходим K8S Service Account с полными правами на неймспейс
Читать...
В этой статье автор расскажет, как организовать систему распределенного машинного обучения на GPU NVidia, используя язык Java с фреймворками Spring, Spark ML, XGBoost, DML в standalone кластере Spark, и как запустить Spark Jobs в Kubernetes в режимах client и cluster, а также вы узнаете почему для Spark Driver необходим K8S Service Account с полными правами на неймспейс
Читать...
🚀Optuna. Подбор гиперпараметров для вашей модели
В этой статье автор расскажет, почему гиперпараметры, задаются разработчиком модели перед ее обучением, и почему фреймворк Optuna обычно используют как оптимизатор гиперпараметров, а также вы узнаете как разработчик может самостоятельно задать пространство для поиска гиперпараметров, используя базовый синтаксис Python.
Читать...
В этой статье автор расскажет, почему гиперпараметры, задаются разработчиком модели перед ее обучением, и почему фреймворк Optuna обычно используют как оптимизатор гиперпараметров, а также вы узнаете как разработчик может самостоятельно задать пространство для поиска гиперпараметров, используя базовый синтаксис Python.
Читать...
🤫Вся правда о кубах данных OLAP: развенчиваем мифы
В этой статье автор расскажет, почему кубы данных — не самая простая тема в дата-инжиниринге, и как кубы данных могут помогать бизнес-аналитикам предварительно упаковывать и агрегировать важные для стейкхолдеров показатели, а также вы узнаете почему кубы это важная характеристика ядра традиционных OLAP-систем.
Читать...
В этой статье автор расскажет, почему кубы данных — не самая простая тема в дата-инжиниринге, и как кубы данных могут помогать бизнес-аналитикам предварительно упаковывать и агрегировать важные для стейкхолдеров показатели, а также вы узнаете почему кубы это важная характеристика ядра традиционных OLAP-систем.
Читать...
🚀Как ускорить вывод ML-моделей в 4 раза, или Как может выглядеть экосистема МLOps в банке
В этой статье автор расскажет, как может выглядеть полноценный конвейер MLOps, и что может уметь, а также вы узнаете как прийти к максимальной автоматизации процесса вывода моделей в промышленную эксплуатацию.
Читать...
В этой статье автор расскажет, как может выглядеть полноценный конвейер MLOps, и что может уметь, а также вы узнаете как прийти к максимальной автоматизации процесса вывода моделей в промышленную эксплуатацию.
Читать...
😎Применение регулярных выражений для обработки данных
В этой статье автор расскажет, почему сейчас регулярные выражения применяются в разнообразных задачах, и как регулярные выражения могут применяться для решения задач SQL, а также вы узнаете почему на практике не все специалисты применяют регулярные выражения для решения поставленных задач в SQL.
Читать...
В этой статье автор расскажет, почему сейчас регулярные выражения применяются в разнообразных задачах, и как регулярные выражения могут применяться для решения задач SQL, а также вы узнаете почему на практике не все специалисты применяют регулярные выражения для решения поставленных задач в SQL.
Читать...
👤Дообучение модели машинного перевода
В этой статье автор расскажет, почему разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей, и как можно дообучить такую модель самому, а также вы узнаете почему после дообучения, при помощи кода m2m_multiling_tune_epochs. py, перевод стал гораздо приятнее.
Читать...
В этой статье автор расскажет, почему разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей, и как можно дообучить такую модель самому, а также вы узнаете почему после дообучения, при помощи кода m2m_multiling_tune_epochs. py, перевод стал гораздо приятнее.
Читать...
🧑🏼💻«Инженеров данных заменит автоматика» и другие мифы о DE
В этой статье автор расскажет, почему инженеры данных готовят данные для анализа, машинного обучения и других целей, и почему мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными, а также вы узнаете как No-code-инструменты позволяют управлять данными и упрощают создание их базовых структур.
Читать...
В этой статье автор расскажет, почему инженеры данных готовят данные для анализа, машинного обучения и других целей, и почему мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными, а также вы узнаете как No-code-инструменты позволяют управлять данными и упрощают создание их базовых структур.
Читать...
🚀Оптимизация выборок в больших коллекциях MongoDB
В этой статье автор расскажет, почему при работе с большими коллекциями в MongoDB, размер которых превышал десятки миллионов записей, возникает необходимость формировать случайные выборки уникальных значений полей, принадлежащих документам этой коллекции, а ещё вы узнаете почему для такой операции, в MongoDB штатно предусмотрена функция $sample, которую можно использовать в составе pipeline при проведении агрегации данных.
Читать...
В этой статье автор расскажет, почему при работе с большими коллекциями в MongoDB, размер которых превышал десятки миллионов записей, возникает необходимость формировать случайные выборки уникальных значений полей, принадлежащих документам этой коллекции, а ещё вы узнаете почему для такой операции, в MongoDB штатно предусмотрена функция $sample, которую можно использовать в составе pipeline при проведении агрегации данных.
Читать...