Cross-account streaming ingestion for Amazon Redshift
Read: https://aws.amazon.com/blogs/big-data/cross-account-streaming-ingestion-for-amazon-redshift/
Read: https://aws.amazon.com/blogs/big-data/cross-account-streaming-ingestion-for-amazon-redshift/
👍1
Введение в базы данных
Я решила написать эту статью, потому что именно такой статьи мне очень не хватало несколько лет назад, когда я только начала карьеру в аналитике данных. Тогда я часто слышала слова «база данных», «реляционная база», «primary key», примерно понимала, что они означают, но единую картину в голове у меня сложить не получалось.
Читать: https://habr.com/ru/post/686816/
Я решила написать эту статью, потому что именно такой статьи мне очень не хватало несколько лет назад, когда я только начала карьеру в аналитике данных. Тогда я часто слышала слова «база данных», «реляционная база», «primary key», примерно понимала, что они означают, но единую картину в голове у меня сложить не получалось.
Читать: https://habr.com/ru/post/686816/
👍4
Crawl Delta Lake tables using AWS Glue crawlers
Read: https://aws.amazon.com/blogs/big-data/crawl-delta-lake-tables-using-aws-glue-crawlers/
Read: https://aws.amazon.com/blogs/big-data/crawl-delta-lake-tables-using-aws-glue-crawlers/
👍1
Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)
Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем.
Читать: https://habr.com/ru/post/682978/
НЛМК- большая компания, производственные активы которой располагаются в разных регионах России и за рубежом. Перед нами стояла задача спроектировать и внедрить новую интеграционную платформу, которая могла бы быть использована для организации информационного обмена, учитывала специфику производственных предприятий и особенности решений, внедренных на протяжении последних десятков лет.Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем.
Читать: https://habr.com/ru/post/682978/
🔥2
Кто такой Data Product Manager и почему без него не обойтись в 2022 году, если вы работаете с Big Data
В 2022 году индустрия больших данных изменилась. И нужно решать, что делать с инфраструктурными вызовами, переходить ли в облако и как продолжать развитие ИТ-решений. Со всем этим компаниям может помочь новая роль в команде — Data Product Manager.
Это статья написана по мотивам выступления на VK Cloud Conf Александра Волынского, Technical Product Manager в VK Cloud. Вы можете посмотреть его целиком в записи.
Главные проблемы и вызовы для индустрии работы с данными в 2022 году
* Инфраструктура и инструменты.Как обеспечить работу систем, построенных на базе ПО вендоров, прекративших продажу лицензий?
* Поддержка и развитие решений на базе зарубежного ПО.Как развивать системы и где получить компетенции для технического сопровождения решений, поддержку которых прекратили зарубежные вендоры?
* Обеспечение безопасности решений. Обновления, новую функциональность и ключевые патчи для закрытия уязвимостей уже не получить.
Учитывая эти проблемы, многие компании решают перейти на Open-Source-инструменты и решения. Но применение этого стека технологий — тоже непростая задача: нужно выбрать решения, запланировать ресурсы, сформировать команду специалистов с нужными компетенциями или найти партнеров по внедрению ПО. И еще понадобится специалист, который все это организует: не всегда в компании может быть достаточно компетенций для реализации таких задач.
Читать: https://habr.com/ru/post/682822/
В 2022 году индустрия больших данных изменилась. И нужно решать, что делать с инфраструктурными вызовами, переходить ли в облако и как продолжать развитие ИТ-решений. Со всем этим компаниям может помочь новая роль в команде — Data Product Manager.
Это статья написана по мотивам выступления на VK Cloud Conf Александра Волынского, Technical Product Manager в VK Cloud. Вы можете посмотреть его целиком в записи.
Главные проблемы и вызовы для индустрии работы с данными в 2022 году
* Инфраструктура и инструменты.Как обеспечить работу систем, построенных на базе ПО вендоров, прекративших продажу лицензий?
* Поддержка и развитие решений на базе зарубежного ПО.Как развивать системы и где получить компетенции для технического сопровождения решений, поддержку которых прекратили зарубежные вендоры?
* Обеспечение безопасности решений. Обновления, новую функциональность и ключевые патчи для закрытия уязвимостей уже не получить.
Учитывая эти проблемы, многие компании решают перейти на Open-Source-инструменты и решения. Но применение этого стека технологий — тоже непростая задача: нужно выбрать решения, запланировать ресурсы, сформировать команду специалистов с нужными компетенциями или найти партнеров по внедрению ПО. И еще понадобится специалист, который все это организует: не всегда в компании может быть достаточно компетенций для реализации таких задач.
Читать: https://habr.com/ru/post/682822/
🔥1
Create single output files for recipe jobs using AWS Glue DataBrew
Read: https://aws.amazon.com/blogs/big-data/create-single-output-files-for-recipe-jobs-using-aws-glue-databrew/
Read: https://aws.amazon.com/blogs/big-data/create-single-output-files-for-recipe-jobs-using-aws-glue-databrew/
👍1
Implement a highly available key distribution center for Amazon EMR
Read: https://aws.amazon.com/blogs/big-data/implement-a-highly-available-key-distribution-center-for-amazon-emr/
Read: https://aws.amazon.com/blogs/big-data/implement-a-highly-available-key-distribution-center-for-amazon-emr/
👍1
Как мы сделали матчер: тайтлы, БЕРТы и две сестры
Всем привет! Меня зовут Андрей Русланцев, я — Senior Machine Learning Engineer в команде матчера в AliExpress Россия. Я расскажу о том, как мы сделали матчер: какие проблемы нам пришлось решить, какие модели мы использовали, как выглядит наш текущий пайплайн, и почему наш матчинг действительно супер.
Читать: https://habr.com/ru/post/686672/
Всем привет! Меня зовут Андрей Русланцев, я — Senior Machine Learning Engineer в команде матчера в AliExpress Россия. Я расскажу о том, как мы сделали матчер: какие проблемы нам пришлось решить, какие модели мы использовали, как выглядит наш текущий пайплайн, и почему наш матчинг действительно супер.
Читать: https://habr.com/ru/post/686672/
👍1
Smart Forms: Наш опыт автоматизации сбора данных
Привет, Хабр! Сегодня я хочу поговорить о проблеме автоматизации сбора данных. В этом посте мы обсудим, какие именно минусы несет сбор данных через файлы Excel, а также расскажем подробнее о наших собственных наработках по автоматизации сбора информации. Речь пойдет о практических аспектах применения инструмента Smart Forms, поэтому пост будет интересен в первую очередь пользователям решений Visiology, а также специалистам, которые организуют сбор информации или планируют это делать. Всех, у кого уже есть подобный опыт на любой платформе приглашаю присоединиться к обсуждению в комментариях.
Читать: https://habr.com/ru/post/650141/
Привет, Хабр! Сегодня я хочу поговорить о проблеме автоматизации сбора данных. В этом посте мы обсудим, какие именно минусы несет сбор данных через файлы Excel, а также расскажем подробнее о наших собственных наработках по автоматизации сбора информации. Речь пойдет о практических аспектах применения инструмента Smart Forms, поэтому пост будет интересен в первую очередь пользователям решений Visiology, а также специалистам, которые организуют сбор информации или планируют это делать. Всех, у кого уже есть подобный опыт на любой платформе приглашаю присоединиться к обсуждению в комментариях.
Читать: https://habr.com/ru/post/650141/
🔥1
The interpretability business
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/the-interpretability-business.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/the-interpretability-business.html
👍1
Integrate AWS IAM Identity Center (successor to AWS Single Sign-On) with AWS Lake Formation fine-grained access controls
Read: https://aws.amazon.com/blogs/big-data/integrate-aws-iam-identity-center-successor-to-aws-single-sign-on-with-aws-lake-formation-fine-grained-access-controls/
Read: https://aws.amazon.com/blogs/big-data/integrate-aws-iam-identity-center-successor-to-aws-single-sign-on-with-aws-lake-formation-fine-grained-access-controls/
👍1
Предохранители для данных: как автоматические выключатели повышают Data Quality
Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? Команда VK Cloud перевела статью о том, как в компании Intuit решают этот вопрос с помощью предохранителей для пайплайнов данных.
В чем суть предохранителя
Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные, которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности.
Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.
Читать: https://habr.com/ru/post/684120/
Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? Команда VK Cloud перевела статью о том, как в компании Intuit решают этот вопрос с помощью предохранителей для пайплайнов данных.
В чем суть предохранителя
Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные, которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности.
Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.
Читать: https://habr.com/ru/post/684120/
🔥3
Convert Oracle XML BLOB data using Amazon EMR and load to Amazon Redshift
Read: https://aws.amazon.com/blogs/big-data/convert-oracle-xml-blob-data-using-amazon-emr-and-load-to-amazon-redshift/
Read: https://aws.amazon.com/blogs/big-data/convert-oracle-xml-blob-data-using-amazon-emr-and-load-to-amazon-redshift/
🥰2
New additions to line charts in Amazon QuickSight
Read: https://aws.amazon.com/blogs/big-data/new-additions-to-line-charts-in-amazon-quicksight/
Read: https://aws.amazon.com/blogs/big-data/new-additions-to-line-charts-in-amazon-quicksight/
🔥2
Amazon migrates financial reporting to Amazon QuickSight
Read: https://aws.amazon.com/blogs/big-data/amazon-migrates-financial-reporting-to-amazon-quicksight/
Read: https://aws.amazon.com/blogs/big-data/amazon-migrates-financial-reporting-to-amazon-quicksight/
🔥1
Data Engineering Weekly #100
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-100
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-100
👍3
Бизнес и облачные технологии встретятся на площадке Yandex Scale
Yandex Scale — это онлайн-конференция про облачные технологии от Yandex Cloud. Более 50 ведущих IT-экспертов и разработчиков расскажут о том, как облачные технологии помогают бизнесу адаптироваться к новой реальности.
В программе более 30 выступлений по 5 тематическим трекам: Infrastructure, Data Platform, Security, Serverless, Business Tools. Участники конференции узнают о новых сервисах для бизнеса, обеспечении безопасности в облаке, возможностях бессерверных вычислений, повышении эффективности бизнеса за счет использования облачных бизнес-инструментов.
Когда: 23 сентября
Послушать выступления спикеров можно онлайн на сайте конференции — достаточно пройти простую регистрацию: https://tprg.ru/kiSp
#ивент
Yandex Scale — это онлайн-конференция про облачные технологии от Yandex Cloud. Более 50 ведущих IT-экспертов и разработчиков расскажут о том, как облачные технологии помогают бизнесу адаптироваться к новой реальности.
В программе более 30 выступлений по 5 тематическим трекам: Infrastructure, Data Platform, Security, Serverless, Business Tools. Участники конференции узнают о новых сервисах для бизнеса, обеспечении безопасности в облаке, возможностях бессерверных вычислений, повышении эффективности бизнеса за счет использования облачных бизнес-инструментов.
Когда: 23 сентября
Послушать выступления спикеров можно онлайн на сайте конференции — достаточно пройти простую регистрацию: https://tprg.ru/kiSp
#ивент
scale.yandex.cloud
Yandex Neuro Scale 2025 | 24 сентября | Москва и онлайн
Большая конференция Yandex Cloud для тех, кто создаёт цифровые продукты и решения. 7 тематических треков, 50+ выступлений и более 13 000 участников.
What about safety
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/what-about-safety.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/what-about-safety.html
👍1
Кто такой дата-аналитик в X5 Tech
Привет, Хабр! На связи отдел аналитики данных X5 Tech.
По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными.
Тем не менее до сих пор многие с трудом могут ответить на вопрос чем занимается дата-аналитик.
В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных.
Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим сегодня об этом поговорить.
Цель данной статьи — ответить на вопросы:
Читать: https://habr.com/ru/post/687554/
Привет, Хабр! На связи отдел аналитики данных X5 Tech.
По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными.
Тем не менее до сих пор многие с трудом могут ответить на вопрос чем занимается дата-аналитик.
В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных.
Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим сегодня об этом поговорить.
Цель данной статьи — ответить на вопросы:
Читать: https://habr.com/ru/post/687554/
Fine-grained ennoscriptments in Amazon Redshift: A case study from TrustLogix
Read: https://aws.amazon.com/blogs/big-data/fine-grained-ennoscriptments-in-amazon-redshift-a-case-study-from-trustlogix/
Read: https://aws.amazon.com/blogs/big-data/fine-grained-ennoscriptments-in-amazon-redshift-a-case-study-from-trustlogix/
👍1
Как устроена виртуальная машина SQLite
SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет ее и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, все-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!
Но на самом деле всё ещё страньше.
Читать: https://habr.com/ru/post/687994/
SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет ее и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, все-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!
Но на самом деле всё ещё страньше.
Читать: https://habr.com/ru/post/687994/
👍1