Что такое выпас данных и почему он необходим?
Когда речь идет об анализе данных, результаты хороши лишь настолько, насколько хороши данные. И даже если на вашей стороне миллионы значений данных, и вы вооружены искусственным интеллектом и машинным обучения, вы можете не использовать эти данные в полной мере (возможно, это сыграет даже во вред вашей организации).
Плохие данные приводят к принятию некачественных решений.
Поэтому вам необходимо очистить и отформатировать ваши данные – взять их под контроль, чтобы они были готовы к последующим процессам.
Вот тут-то и приходит на помощь выпас данных.
Читать: https://habr.com/ru/post/675796/
Когда речь идет об анализе данных, результаты хороши лишь настолько, насколько хороши данные. И даже если на вашей стороне миллионы значений данных, и вы вооружены искусственным интеллектом и машинным обучения, вы можете не использовать эти данные в полной мере (возможно, это сыграет даже во вред вашей организации).
Плохие данные приводят к принятию некачественных решений.
Поэтому вам необходимо очистить и отформатировать ваши данные – взять их под контроль, чтобы они были готовы к последующим процессам.
Вот тут-то и приходит на помощь выпас данных.
Читать: https://habr.com/ru/post/675796/
Тестирование конвейеров данных
Как Oracle Problem, граничные значения, закрытые экосистемы и сама цель тестов отличают задачу тестирования конвейеров данных от тестирования традиционного программного обеспечения.
Программное обеспечение просто перемещает данные внутри компьютеров. Конвейеры данных также просто перемещают данные внутри компьютеров. Итак, насколько тестирование конвейеров данных может отличаться от тестирования любой другой формы программного обеспечения? Разве все практики, подходы и накопленный опыт, полученные при тестировании традиционного программного обеспечения, не должны применяться и к конвейерам данных?
К сожалению, всё сложнее. Да, тестирование конвейеров данных и тестирование традиционного программного обеспечения частично пересекаются. Однако существуют уникальные характеристики и особенности разработки конвейеров, которые создают особые сложности при тестировании, которых опытный инженер по качеству может не знать. Игнорирование этих особенностей и подход к конвейерам данных так, как будто они ничем не отличаются от любого другого типа программного обеспечения, приведет к разочаровывающим результатам. В этой статье я рассмотрю несколько наиболее интересных проблем и предложу альтернативные подходы, подходящие для конвейеров данных.
Хотя эта статья будет посвящена этим различиям, она не будет исчерпывающим руководством по тестированию конвейеров данных. Тестирование конвейеров данных — это широкая тема, которая не может быть полностью раскрыта в одном посте. Однако понимание этих проблем будет полезно всем, кто работает с конвейерами данных.
Читать: https://habr.com/ru/post/676170/
Как Oracle Problem, граничные значения, закрытые экосистемы и сама цель тестов отличают задачу тестирования конвейеров данных от тестирования традиционного программного обеспечения.
Программное обеспечение просто перемещает данные внутри компьютеров. Конвейеры данных также просто перемещают данные внутри компьютеров. Итак, насколько тестирование конвейеров данных может отличаться от тестирования любой другой формы программного обеспечения? Разве все практики, подходы и накопленный опыт, полученные при тестировании традиционного программного обеспечения, не должны применяться и к конвейерам данных?
К сожалению, всё сложнее. Да, тестирование конвейеров данных и тестирование традиционного программного обеспечения частично пересекаются. Однако существуют уникальные характеристики и особенности разработки конвейеров, которые создают особые сложности при тестировании, которых опытный инженер по качеству может не знать. Игнорирование этих особенностей и подход к конвейерам данных так, как будто они ничем не отличаются от любого другого типа программного обеспечения, приведет к разочаровывающим результатам. В этой статье я рассмотрю несколько наиболее интересных проблем и предложу альтернативные подходы, подходящие для конвейеров данных.
Хотя эта статья будет посвящена этим различиям, она не будет исчерпывающим руководством по тестированию конвейеров данных. Тестирование конвейеров данных — это широкая тема, которая не может быть полностью раскрыта в одном посте. Однако понимание этих проблем будет полезно всем, кто работает с конвейерами данных.
Читать: https://habr.com/ru/post/676170/
👍1
Ищем кротовые норы с помощью big data
Чтобы исправить кое-какие ошибки, человечество решило отправиться в прошлое. Для этого надо найти правильную кротовую нору — просторную, но не слишком гравитирующую и по приемлемой цене — чтобы забронировать телепортацию.
В космосе россыпи всяческих дыр и нор, по которым вдобавок катаются клубки перепутанных суперструн: вручную такое не проанализировать. Поэтому тут не обойтись без специалиста по большим данным.
Твоё резюме было таким убедительным, что эксперты из Академии больших данных MADE и VK Образования решили провести собеседование прямо на космическом шаттле. Ответь на вопросы, подтверди свою квалификацию и помоги капитану определить маршрут. Поехали!
Пройти тест
Читать: https://habr.com/ru/post/669062/
Чтобы исправить кое-какие ошибки, человечество решило отправиться в прошлое. Для этого надо найти правильную кротовую нору — просторную, но не слишком гравитирующую и по приемлемой цене — чтобы забронировать телепортацию.
В космосе россыпи всяческих дыр и нор, по которым вдобавок катаются клубки перепутанных суперструн: вручную такое не проанализировать. Поэтому тут не обойтись без специалиста по большим данным.
Твоё резюме было таким убедительным, что эксперты из Академии больших данных MADE и VK Образования решили провести собеседование прямо на космическом шаттле. Ответь на вопросы, подтверди свою квалификацию и помоги капитану определить маршрут. Поехали!
Пройти тест
Читать: https://habr.com/ru/post/669062/
“Как заставить данные говорить”: практическое погружение в нюансы работы российских BI-платформ
Привет, Хабр! Сейчас многие сталкиваются с проблемой замены BI-платформы из-за выхода с рынка зарубежных вендоров — особенно популярного и многими любимого PowerBI. И поэтому наши коллеги снова подходят к вопросу замены западной BI-платформы на российскую, но совершенно с другой стороны. Сегодня речь пойдет об уникальном тренинге для аналитиков и менеджеров “Как заставить данные говорить?”, на котором участники будут САМИ сравнивать разные BI-продукты под руководством опытного эксперта Алексея Колоколова, попробуют поработать в разных системах, а также получат индивидуальные задания и длительную обратную связь после завершения курса. Для интересующихся подробная информация — под катом.
Узнать больше про тренинг
Читать: https://habr.com/ru/post/676300/
Привет, Хабр! Сейчас многие сталкиваются с проблемой замены BI-платформы из-за выхода с рынка зарубежных вендоров — особенно популярного и многими любимого PowerBI. И поэтому наши коллеги снова подходят к вопросу замены западной BI-платформы на российскую, но совершенно с другой стороны. Сегодня речь пойдет об уникальном тренинге для аналитиков и менеджеров “Как заставить данные говорить?”, на котором участники будут САМИ сравнивать разные BI-продукты под руководством опытного эксперта Алексея Колоколова, попробуют поработать в разных системах, а также получат индивидуальные задания и длительную обратную связь после завершения курса. Для интересующихся подробная информация — под катом.
Узнать больше про тренинг
Читать: https://habr.com/ru/post/676300/
Use Amazon Athena parameterized queries to provide data as a service
Read: https://aws.amazon.com/blogs/big-data/use-amazon-athena-parameterized-queries-to-provide-data-as-a-service/
Read: https://aws.amazon.com/blogs/big-data/use-amazon-athena-parameterized-queries-to-provide-data-as-a-service/
👍1
What is AB testing: a 2020s view
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/07/what-is-ab-testing.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/07/what-is-ab-testing.html
👍2
Oracle Analytics Best Practices: Reporting on Catalog Object ACLs
Learn how to use Catalog Manager to generate a report that show the Access Control Lists (ACLs) assigned to objects in the Oracle Analytics catalog.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-best-practices-reporting-on-catalog-acls
Learn how to use Catalog Manager to generate a report that show the Access Control Lists (ACLs) assigned to objects in the Oracle Analytics catalog.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-best-practices-reporting-on-catalog-acls
👍1
В Data Science не нужна математика (Почти)
Привет, чемпион!
Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит капнуть глубже, оказывается, что это не математика, а вышмат.
В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.
Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!
Читать: https://habr.com/ru/post/676114/
Привет, чемпион!
Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит капнуть глубже, оказывается, что это не математика, а вышмат.
В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.
Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!
Читать: https://habr.com/ru/post/676114/
👍8👎1
5 Steps to land a high paying data engineering job
Read: https://www.startdataengineering.com/post/n-steps-high-pay-de-job/
Read: https://www.startdataengineering.com/post/n-steps-high-pay-de-job/
👍1
Данные и где они обитают: 10 вопросов о ЦОДах, облаках и Big Data
Мы собрали 10 правдивых (и не очень) фактов и готовы проверить вашу эрудицию!
Читать: «Данные и где они обитают: 10 вопросов о ЦОДах, облаках и Big Data»
Мы собрали 10 правдивых (и не очень) фактов и готовы проверить вашу эрудицию!
Читать: «Данные и где они обитают: 10 вопросов о ЦОДах, облаках и Big Data»
👍1
DASтаточное решение: прямое подключение дисков для разных задач
Проблема хранения данных, и без того создающая массу головной боли архитекторам ЦОДов и системным администраторам, стала еще актуальнее в свете последних событий. В частности, к нам все чаще стали обращаться с запросами на различные форматы организации дополнительных хранилищ и расширения емкостей. Поэтому сегодня Юрий Алексеев, наш presale-эксперт по серверным решениям и системам хранения данных, расскажет о возможностях расширения уже существующего дискового пространства сервера с помощью подключения дисковых полок через DAS (то есть о прямом подключении). В посте мы поговорим о том, что для этого нужно, как это работает, и обсудим, может ли DAS заменить сетевые хранилища или системы высокой емкости.
Читать: https://habr.com/ru/post/676528/
Проблема хранения данных, и без того создающая массу головной боли архитекторам ЦОДов и системным администраторам, стала еще актуальнее в свете последних событий. В частности, к нам все чаще стали обращаться с запросами на различные форматы организации дополнительных хранилищ и расширения емкостей. Поэтому сегодня Юрий Алексеев, наш presale-эксперт по серверным решениям и системам хранения данных, расскажет о возможностях расширения уже существующего дискового пространства сервера с помощью подключения дисковых полок через DAS (то есть о прямом подключении). В посте мы поговорим о том, что для этого нужно, как это работает, и обсудим, может ли DAS заменить сетевые хранилища или системы высокой емкости.
Читать: https://habr.com/ru/post/676528/
👍1
Achieve fine-grained data security with row-level access control in Amazon Redshift
Read: https://aws.amazon.com/blogs/big-data/achieve-fine-grained-data-security-with-row-level-access-control-in-amazon-redshift/
Read: https://aws.amazon.com/blogs/big-data/achieve-fine-grained-data-security-with-row-level-access-control-in-amazon-redshift/
👍1
Optimize your Amazon Redshift query performance with automated materialized views
Read: https://aws.amazon.com/blogs/big-data/optimize-your-amazon-redshift-query-performance-with-automated-materialized-views/
Read: https://aws.amazon.com/blogs/big-data/optimize-your-amazon-redshift-query-performance-with-automated-materialized-views/
👍1
Introducing Embedded Analytics Data Lab to accelerate integration of Amazon QuickSight analytics into applications
Read: https://aws.amazon.com/blogs/big-data/introducing-embedded-analytics-data-lab-to-accelerate-integration-of-amazon-quicksight-analytics-into-applications/
Read: https://aws.amazon.com/blogs/big-data/introducing-embedded-analytics-data-lab-to-accelerate-integration-of-amazon-quicksight-analytics-into-applications/
👍1
Converting Columns to DateTime in Oracle Analytics Cloud
Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog describes how to convert a column from an attribute field to a DateTime field.
Read: https://blogs.oracle.com/analytics/post/converting-text-columns-to-datetime-in-oac
Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog describes how to convert a column from an attribute field to a DateTime field.
Read: https://blogs.oracle.com/analytics/post/converting-text-columns-to-datetime-in-oac
Oracle
Converting Columns to DateTime in Oracle Analytics Cloud
Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog describes how to convert a column from an attribute field to a DateTime field.
👍1
В чем проблема с базами данных «ключ-значение» и как ее решают Wide-column-хранилища
Базы данных «ключ-значение» великолепные — ультрабыстрые, простые, почти линейно масштабируемые по количеству узлов. Но с ними все не так просто. Команда VK Cloud Solutions перевела статью о том, какие у таких баз есть проблемы и как их решить с помощью Wide-column-хранилищ.
Проблемы с базами данных «ключ-значение»
Основная концепция базы данных «ключ-значение» в том, что сами значения ее не беспокоят. Ее работа основана на некоторых допущениях, например, как у Redis, но на структуру данных она вообще не обращает внимания. Из-за этого могут возникнуть три проблемы.
Читать: https://habr.com/ru/post/675556/
Базы данных «ключ-значение» великолепные — ультрабыстрые, простые, почти линейно масштабируемые по количеству узлов. Но с ними все не так просто. Команда VK Cloud Solutions перевела статью о том, какие у таких баз есть проблемы и как их решить с помощью Wide-column-хранилищ.
Проблемы с базами данных «ключ-значение»
Основная концепция базы данных «ключ-значение» в том, что сами значения ее не беспокоят. Ее работа основана на некоторых допущениях, например, как у Redis, но на структуру данных она вообще не обращает внимания. Из-за этого могут возникнуть три проблемы.
Читать: https://habr.com/ru/post/675556/
👍1
The Data Founder Story: Singularity Data
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-singularity
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-singularity
👍2
Национализация ваших данных происходит прямо сейчас
Национализация ваших данных государством продолжается семимильными шагами. Ожил "замерший" новый законопроект Минцифры и летит к принятию. Это один из самых радикальных подходов к данным со стороны государства, который я когда-либо видел. Он заберёт все ваши данные у компаний, не спросив вас, и раздаст всем желающим.
Согласно ему государство вправе бесплатно забрать у бизнеса любые персональные данные граждан в некую "информационную систему". Потом их "обезличат" чтобы с ними могли работать "ведомства и разработчики ИИ". Прямо так и написано. Разрешения гражданина не потребуется - хотя ещё в апреле Минцифры явно говорило, что оно будет нужно. Разрешение, как предполагали в первых версиях проекта, нужно будет спрашивать только у силовиков.
Поражает здесь то, что государство просто собирается признать своим всё, что крупные компании строили за деньги инвесторов, неся риски, столько лет - например, тот же "Яндекс". Весь его бизнес - это данные и продажа таргетинга на основе них. Это был барьер от конкурентов, создаваемое годами технологическое преимущество, ценнейший актив компании.
Если Яндексу придётся передать все подобные данные государству - это принципиальный удар по бизнес-модели. Его данные, даже в обезличенном виде, теперь будут доступны сотням компаний. Кстати, дальше эти данные "защищает" государство. Утечки, проблемы - теперь наказывать государство будет само себя.
Горелкин из айти-комитета госдумы подтверждает смысл закона: мол, несправедливо, когда у гигантов столько данных, пусть ими пользуются все. А в обмен гиганты, типа, получат доступ к обезличенным данным друг друга.
Государство же даст возможность развивать технологии и гораздо менее крупным ИТ-компаниям, обеспечив им доступ к дата-сетам, которые сегодня они себе просто не могут позволить. - пишет он
То есть "отберём у всех больших и раздадим всем желающим". Нихрена ж себе революция.
Это может привести к полному изменению бизнес-моделей при активном вмешательстве государства.
И это продолжение курса на национализацию данных - неважно сколько сил и средств было вложено компаниями. Я уже писал про уже принятых новых закона - один позволяет государству забирать ваши биометрические данные у любого бизнеса без вашего разрешения, второй запрещает бизнесу без разрешения РКН отдавать данные куда-либо за рубеж, даже в системы аналитики. Их уже подписали и приняли.
Третий закон, если будет принят в таком виде, принудит бизнес просто отдавать всё, что он собирает. Это радикальная национализация пользовательских данных и полное перекраивание рынка. И плевок в приватность пользователей.
Читать: https://habr.com/ru/post/676778/
Национализация ваших данных государством продолжается семимильными шагами. Ожил "замерший" новый законопроект Минцифры и летит к принятию. Это один из самых радикальных подходов к данным со стороны государства, который я когда-либо видел. Он заберёт все ваши данные у компаний, не спросив вас, и раздаст всем желающим.
Согласно ему государство вправе бесплатно забрать у бизнеса любые персональные данные граждан в некую "информационную систему". Потом их "обезличат" чтобы с ними могли работать "ведомства и разработчики ИИ". Прямо так и написано. Разрешения гражданина не потребуется - хотя ещё в апреле Минцифры явно говорило, что оно будет нужно. Разрешение, как предполагали в первых версиях проекта, нужно будет спрашивать только у силовиков.
Поражает здесь то, что государство просто собирается признать своим всё, что крупные компании строили за деньги инвесторов, неся риски, столько лет - например, тот же "Яндекс". Весь его бизнес - это данные и продажа таргетинга на основе них. Это был барьер от конкурентов, создаваемое годами технологическое преимущество, ценнейший актив компании.
Если Яндексу придётся передать все подобные данные государству - это принципиальный удар по бизнес-модели. Его данные, даже в обезличенном виде, теперь будут доступны сотням компаний. Кстати, дальше эти данные "защищает" государство. Утечки, проблемы - теперь наказывать государство будет само себя.
Горелкин из айти-комитета госдумы подтверждает смысл закона: мол, несправедливо, когда у гигантов столько данных, пусть ими пользуются все. А в обмен гиганты, типа, получат доступ к обезличенным данным друг друга.
Государство же даст возможность развивать технологии и гораздо менее крупным ИТ-компаниям, обеспечив им доступ к дата-сетам, которые сегодня они себе просто не могут позволить. - пишет он
То есть "отберём у всех больших и раздадим всем желающим". Нихрена ж себе революция.
Это может привести к полному изменению бизнес-моделей при активном вмешательстве государства.
И это продолжение курса на национализацию данных - неважно сколько сил и средств было вложено компаниями. Я уже писал про уже принятых новых закона - один позволяет государству забирать ваши биометрические данные у любого бизнеса без вашего разрешения, второй запрещает бизнесу без разрешения РКН отдавать данные куда-либо за рубеж, даже в системы аналитики. Их уже подписали и приняли.
Третий закон, если будет принят в таком виде, принудит бизнес просто отдавать всё, что он собирает. Это радикальная национализация пользовательских данных и полное перекраивание рынка. И плевок в приватность пользователей.
Читать: https://habr.com/ru/post/676778/
😱4😢3
Выявление и сбор требований к ПО — ultimate guide
Какие бывают требования к ПО и как их собирать. Пост полностью освещает все аспекты сбора и структурирует информацию для тестировщиков.
Читать: «Выявление и сбор требований к ПО — ultimate guide»
Какие бывают требования к ПО и как их собирать. Пост полностью освещает все аспекты сбора и структурирует информацию для тестировщиков.
Читать: «Выявление и сбор требований к ПО — ultimate guide»
👍1
Custom packages and hot reload of dictionary files with Amazon OpenSearch Service
Read: https://aws.amazon.com/blogs/big-data/custom-packages-and-hot-reload-of-dictionary-files-with-amazon-opensearch-service/
Read: https://aws.amazon.com/blogs/big-data/custom-packages-and-hot-reload-of-dictionary-files-with-amazon-opensearch-service/
👍1