ClearML | Туториал
ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...
Читать: https://habr.com/ru/post/691314/
ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...
Читать: https://habr.com/ru/post/691314/
👍1
Сравнение FineBI и Power BI
За последнее время, на рынке BI-услуг все чаще можно услышать упоминание нового игрока в лице китайской компании FanRuan.
Основанная в 2006 году, она является китайским лидером в продвижении систем бизнес-анализа в массы, с 15% долей локального рынка и более чем 15 тысяч клиентами.
Производитель китайского BI-решения, представляет продукт Fine BI как удобный инструмент для Self Service BI-анализа, способный стать заменой такому мировому гиганту как PowerBI, в сравнении с которым он будет сегодня рассмотрен более подробно.
Читать: https://habr.com/ru/post/691420/
За последнее время, на рынке BI-услуг все чаще можно услышать упоминание нового игрока в лице китайской компании FanRuan.
Основанная в 2006 году, она является китайским лидером в продвижении систем бизнес-анализа в массы, с 15% долей локального рынка и более чем 15 тысяч клиентами.
Производитель китайского BI-решения, представляет продукт Fine BI как удобный инструмент для Self Service BI-анализа, способный стать заменой такому мировому гиганту как PowerBI, в сравнении с которым он будет сегодня рассмотрен более подробно.
Читать: https://habr.com/ru/post/691420/
Automate data archival for Amazon Redshift time series tables
Read: https://aws.amazon.com/blogs/big-data/automate-data-archival-for-amazon-redshift-time-series-tables/
Read: https://aws.amazon.com/blogs/big-data/automate-data-archival-for-amazon-redshift-time-series-tables/
🔥1
Manage your Amazon QuickSight datasets more efficiently with the new user interface
Read: https://aws.amazon.com/blogs/big-data/manage-your-amazon-quicksight-datasets-more-efficiently-with-the-new-user-interface/
Read: https://aws.amazon.com/blogs/big-data/manage-your-amazon-quicksight-datasets-more-efficiently-with-the-new-user-interface/
Куда приводят Ops'ы: размышления о развитии ландшафта *Ops-специализаций
Разнообразные и разнонаправленные изменения, на которые 2022-й оказался более чем щедр, натолкнули на размышления о том, каков текущий Ops-ландшафт и как он (потенциально) будет изменяться в ближайшей и среднесрочной перспективе. И хотя все сейчас живут в соответствии с известным изречением «Хочешь насмешить Бога — расскажи ему о своих планах», можно попытаться кое-что спрогнозировать.
К слову о прогнозировании: несмотря на недавние новости о снижении мобильного трафика в России, Nokia Bell Labs предсказывает рост мирового объема IP-трафика в 2022 году до уровня в 330 эксабайт в месяц. А количество устройств, подключенных к Интернету вещей, по мнению экспертов, вырастет до 100 млрд в 2025 году. И большую часть сгенерированных устройствами и пользователями данных, так или иначе, будет анализировать бизнес.
Для автоматизации этого процесса используются платформы обработки и хранения данных, которые дают аналитикам огромные возможности по их глубокому изучению. Однако инфраструктуры таких платформ довольно сложно сопровождать — они содержат много компонентов и связей между ними. А у BI-специалистов свои задачами, им недосуг следить за тем, как, например, распаковывается JSON или извлекаются данные. Так что «платформа ищет человека». И находит его — в лице DataOps- и MLOps-инженеров.
Читать: https://habr.com/ru/post/691636/
Разнообразные и разнонаправленные изменения, на которые 2022-й оказался более чем щедр, натолкнули на размышления о том, каков текущий Ops-ландшафт и как он (потенциально) будет изменяться в ближайшей и среднесрочной перспективе. И хотя все сейчас живут в соответствии с известным изречением «Хочешь насмешить Бога — расскажи ему о своих планах», можно попытаться кое-что спрогнозировать.
К слову о прогнозировании: несмотря на недавние новости о снижении мобильного трафика в России, Nokia Bell Labs предсказывает рост мирового объема IP-трафика в 2022 году до уровня в 330 эксабайт в месяц. А количество устройств, подключенных к Интернету вещей, по мнению экспертов, вырастет до 100 млрд в 2025 году. И большую часть сгенерированных устройствами и пользователями данных, так или иначе, будет анализировать бизнес.
Для автоматизации этого процесса используются платформы обработки и хранения данных, которые дают аналитикам огромные возможности по их глубокому изучению. Однако инфраструктуры таких платформ довольно сложно сопровождать — они содержат много компонентов и связей между ними. А у BI-специалистов свои задачами, им недосуг следить за тем, как, например, распаковывается JSON или извлекаются данные. Так что «платформа ищет человека». И находит его — в лице DataOps- и MLOps-инженеров.
Читать: https://habr.com/ru/post/691636/
👍2
Возможности предиктивной аналитики в повышении энергоэффективности оборудования и прогнозе энергопотребления
По данным консалтинговой компании Roland Berger, ведущие электроэнергетические компании по всему миру реализуют программы цифровой трансформации. Повсеместное применение больших данных способствует развитию решений предиктивной аналитики, которые сегодня высоко востребованы в энергетике. Прогнозная аналитика позволяет предсказать выход оборудования из строя, объективно оценивать риски и принимать стратегически верные решения.
В этой статье мы расскажем о том, как с помощью предиктивного анализа реализовать качественный прогноз энергопотребления и повысить энергоэффективность оборудования генерирующих компаний.
Читать: https://habr.com/ru/post/691678/
По данным консалтинговой компании Roland Berger, ведущие электроэнергетические компании по всему миру реализуют программы цифровой трансформации. Повсеместное применение больших данных способствует развитию решений предиктивной аналитики, которые сегодня высоко востребованы в энергетике. Прогнозная аналитика позволяет предсказать выход оборудования из строя, объективно оценивать риски и принимать стратегически верные решения.
В этой статье мы расскажем о том, как с помощью предиктивного анализа реализовать качественный прогноз энергопотребления и повысить энергоэффективность оборудования генерирующих компаний.
Читать: https://habr.com/ru/post/691678/
Большим данным настал конец. Databricks, Snowflake и конец неоправданного хайпа
Что только нам не обещали с появлением Big Data. Мы будем прогнозировать продуктовый спрос и вспышки болезни, научим нейросети рисовать картины и сочинять романы, от которых плакал бы сам Достоевский (воссозданный теми же нейросетями по дневникам, портретам и рассказам современников). Что-то из этого уже в каком-то виде увидело свет — и это круто. Но большинству компаний это неинтересно и не нужно. Вместо суперсовременной архитектуры с плюшками-свистелками мы ищем аналоги наших старых хранилищ, но быстрее, дешевле и полегче в настройке. И это наглядно видно на примере историй Databricks и Snowflake.
Кликбейт, но интересно
Читать: https://habr.com/ru/post/689094/
Что только нам не обещали с появлением Big Data. Мы будем прогнозировать продуктовый спрос и вспышки болезни, научим нейросети рисовать картины и сочинять романы, от которых плакал бы сам Достоевский (воссозданный теми же нейросетями по дневникам, портретам и рассказам современников). Что-то из этого уже в каком-то виде увидело свет — и это круто. Но большинству компаний это неинтересно и не нужно. Вместо суперсовременной архитектуры с плюшками-свистелками мы ищем аналоги наших старых хранилищ, но быстрее, дешевле и полегче в настройке. И это наглядно видно на примере историй Databricks и Snowflake.
Кликбейт, но интересно
Читать: https://habr.com/ru/post/689094/
👍2
Common streaming data enrichment patterns in Amazon Kinesis Data Analytics for Apache Flink
Read: https://aws.amazon.com/blogs/big-data/common-streaming-data-enrichment-patterns-in-amazon-kinesis-data-analytics-for-apache-flink/
Read: https://aws.amazon.com/blogs/big-data/common-streaming-data-enrichment-patterns-in-amazon-kinesis-data-analytics-for-apache-flink/
Ingest streaming data to Apache Hudi tables using AWS Glue and Apache Hudi DeltaStreamer
Read: https://aws.amazon.com/blogs/big-data/ingest-streaming-data-to-apache-hudi-tables-using-aws-glue-and-apache-hudi-deltastreamer/
Read: https://aws.amazon.com/blogs/big-data/ingest-streaming-data-to-apache-hudi-tables-using-aws-glue-and-apache-hudi-deltastreamer/
Как мы доработали чат-бота «Дану» и сделали её проницательнее и сообразительнее
Привет! Меня зовут Даир, я Data Scientist. Эту статью мы писали вместе с Санжаром, моим коллегой, который тоже занимался проектом. Мы расскажем, как научили понимать любые клиентские запросы уже разработанным ранее в Beeline чат-бота.
Фраза «понимание клиента» для нас значит следующее: клиент пишет текстовый запрос с описанием своей проблемы, если чат-бот может уловить суть проблемы, ее тематику и намерение, мы считаем, что мы справились со своей задачей. Намерение клиента в текстовом запросе мы называем «интент» (intent).
Улучшаем чат-бот
Читать: https://habr.com/ru/post/691996/
Привет! Меня зовут Даир, я Data Scientist. Эту статью мы писали вместе с Санжаром, моим коллегой, который тоже занимался проектом. Мы расскажем, как научили понимать любые клиентские запросы уже разработанным ранее в Beeline чат-бота.
Фраза «понимание клиента» для нас значит следующее: клиент пишет текстовый запрос с описанием своей проблемы, если чат-бот может уловить суть проблемы, ее тематику и намерение, мы считаем, что мы справились со своей задачей. Намерение клиента в текстовом запросе мы называем «интент» (intent).
Улучшаем чат-бот
Читать: https://habr.com/ru/post/691996/
To prove inflation, get some inflated data
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/10/to-prove-inflation-get-some-inflated-data.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/10/to-prove-inflation-get-some-inflated-data.html
Evidently или как пасти модели в проде
Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации.
Рассмотрим как ее установить и использовать.
Читать: https://habr.com/ru/post/692272/
Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации.
Рассмотрим как ее установить и использовать.
Читать: https://habr.com/ru/post/692272/
Tableau — динамический фильтр TOP N
Всем привет!
На работы стояла такая задача - вывести количество запросов в поддержку за день с разбивкой по версии приложения.
Казалось бы легкая задача! Но оказалось, что количество версий приложений несколько десятков и на графике это может выглядеть ужасно.
Поэтому появилась мысль, а можно ли выводить, например 10 версий с самым большим количеством запросов, а при необходимости «развернуть» график.
К сожалению, данный фунционал не представлен явным образом в Tableau, поэтому пришлось поресерчить и вот что из этого получилось.
Читать: https://habr.com/ru/post/692294/
Всем привет!
На работы стояла такая задача - вывести количество запросов в поддержку за день с разбивкой по версии приложения.
Казалось бы легкая задача! Но оказалось, что количество версий приложений несколько десятков и на графике это может выглядеть ужасно.
Поэтому появилась мысль, а можно ли выводить, например 10 версий с самым большим количеством запросов, а при необходимости «развернуть» график.
К сожалению, данный фунционал не представлен явным образом в Tableau, поэтому пришлось поресерчить и вот что из этого получилось.
Читать: https://habr.com/ru/post/692294/
Мониторинг в Apache NiFi. Часть первая
Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.
Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.
Читать: https://habr.com/ru/post/692154/
Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.
Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.
Читать: https://habr.com/ru/post/692154/
Land data from databases to a data lake at scale using AWS Glue blueprints
Read: https://aws.amazon.com/blogs/big-data/land-data-from-databases-to-a-data-lake-at-scale-using-aws-glue-blueprints/
Read: https://aws.amazon.com/blogs/big-data/land-data-from-databases-to-a-data-lake-at-scale-using-aws-glue-blueprints/
Improve federated queries with predicate pushdown in Amazon Athena
Read: https://aws.amazon.com/blogs/big-data/improve-federated-queries-with-predicate-pushdown-in-amazon-athena/
Read: https://aws.amazon.com/blogs/big-data/improve-federated-queries-with-predicate-pushdown-in-amazon-athena/
Подводные камни Spark: что делать с перезаписью и дополнением в таблицах
Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть.
Читать: https://habr.com/ru/post/692552/
Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть.
Читать: https://habr.com/ru/post/692552/
Плохое качество данных – тихий убийца современных дата-стеков
В прошлом месяце мы прочитали любопытный материал в Datafloq, в котором поднимался очень важный вопрос для всех отраслей бизнеса, работающих с большими данными: как проверить качество этих самых данных? Статью мы, разумеется, прочитали от начала до конца, поделились ею с коллегами, коллеги поделились со своими коллегами и все единогласно заявляли, едва увидев заголовок: контролируемость и отслеживаемость данных — вот камень преткновения в вопросе качества Big Data. Что ж, в принципе, ничего нового, - подумали мы, - но как выстроить процессы, связанные с этой самой отслеживаемостью? Мы перевели для вас этот материал, чтобы вы, как и мы, смогли разобраться в этом вопросе. Согласны ли вы с автором? Будем рады вашему мнению!
Подробнее в переводе Platforma
Читать: https://habr.com/ru/post/692670/
В прошлом месяце мы прочитали любопытный материал в Datafloq, в котором поднимался очень важный вопрос для всех отраслей бизнеса, работающих с большими данными: как проверить качество этих самых данных? Статью мы, разумеется, прочитали от начала до конца, поделились ею с коллегами, коллеги поделились со своими коллегами и все единогласно заявляли, едва увидев заголовок: контролируемость и отслеживаемость данных — вот камень преткновения в вопросе качества Big Data. Что ж, в принципе, ничего нового, - подумали мы, - но как выстроить процессы, связанные с этой самой отслеживаемостью? Мы перевели для вас этот материал, чтобы вы, как и мы, смогли разобраться в этом вопросе. Согласны ли вы с автором? Будем рады вашему мнению!
Подробнее в переводе Platforma
Читать: https://habr.com/ru/post/692670/
👍2
Split your monolithic Apache Kafka clusters using Amazon MSK Serverless
Read: https://aws.amazon.com/blogs/big-data/split-your-monolithic-apache-kafka-clusters-using-amazon-msk-serverless/
Read: https://aws.amazon.com/blogs/big-data/split-your-monolithic-apache-kafka-clusters-using-amazon-msk-serverless/
Big Data + Machine Learning = Love
В статье рассмотрим, как машинное обучение помогает обрабатывать большие объемы данных и извлекать ключевую информацию, скрытую в них. И, разумеется, приведем примеры совместного использования Big Data и Machine Learning (ML), а также расскажем об интересных проектах для тех, кто хотел бы начать работать с большими данными и ML.
Читать: https://habr.com/ru/post/692978/
В статье рассмотрим, как машинное обучение помогает обрабатывать большие объемы данных и извлекать ключевую информацию, скрытую в них. И, разумеется, приведем примеры совместного использования Big Data и Machine Learning (ML), а также расскажем об интересных проектах для тех, кто хотел бы начать работать с большими данными и ML.
Читать: https://habr.com/ru/post/692978/
🥰1
Как заменить Qlik и PowerBI с минимальными потерями: Visiology+Loginom+PostgreSQL
"Что делать, когда ТОПовые BI-системы стали недоступны и перспективы работы с ними оказались сильно ограничены?". Эта дилемма встает сегодня перед многими компаниями. Меня часто спрашивают, можем ли мы взять и перенести уже наработанные практики на другие платформы, доступные в России на сегодняшний день? К счастью, ответ на этот вопрос положительный, и об одном из вариантов его решения я расскажу сегодня.
Читать: https://habr.com/ru/post/692876/
"Что делать, когда ТОПовые BI-системы стали недоступны и перспективы работы с ними оказались сильно ограничены?". Эта дилемма встает сегодня перед многими компаниями. Меня часто спрашивают, можем ли мы взять и перенести уже наработанные практики на другие платформы, доступные в России на сегодняшний день? К счастью, ответ на этот вопрос положительный, и об одном из вариантов его решения я расскажу сегодня.
Читать: https://habr.com/ru/post/692876/