Вы слышали про DevOps? Это понятие пришло из разработки ПО, по простому это как мы разрабатываем ПО, есть ли у нас версионность кода, можно ли вместе менять код, где хранить код, как мы разделяем тест и прод и ТП. Это важно и в аналитике, часто когда мы меняем код (ETL, DW, BI) мы легко можем все поломать и бизнес пользователи не довольны. Отсюда и DevOps для аналитики. Для предикативных моделей тоже важно. https://www.red-gate.com/simple-talk/sql/database-devops-sql/introduction-to-devops-devops-and-the-database/
Simple Talk
Database DevOps - Simple Talk
Robert Sheldon discusses the challenges involved with including the database in the DevOps pipeline and how to overcome them in Database DevOps.
AWS опубликовал новый блогрост про построение озера данных. Озеро данных это по-сути защищённое файловое хранилище где можно хранить данные в сыром виде и анализировать. Дёшево и быстро, но можно легко превратить все это в болото данных если не подумать о сборе метаданных, такой вот справочник, что и где храниться. Другая сложность, что в озере сложно редактировать историю данных(если вам надо обновить что-то в прошлом) поэтому хорошо использовать вместе с хранилищем данных.
Amazon
Build, secure, and manage data lakes with AWS Lake Formation | Amazon Web Services
A data lake is a centralized store of a variety of data types for analysis by multiple analytics approaches and groups. Many organizations are moving their data into a data lake. In this post, we explore how you can use AWS Lake Formation to build, secure…
Полезный гайд как в питоне работать с экселельными файлами https://towardsdatascience.com/intro-to-reading-and-writing-spreadsheets-with-python-b635ae514ab8
Medium
Intro to Reading and Writing Spreadsheets with Python
[For Complete Beginners] A tutorial on how to read, transform and write spreadsheets in Python
Фоточка из Бостона. Кстати немножко не в тему, я перешёл с iPhone на Google pixel 3xl. Телефон очень понравился, много полезный фич, которых нет у Айфона, а главное я купил его на Amazon renewed (только в штатах) новый со скидкой 50%. Так что если вы заказываете что-то из Америки то это отличный вариант сыкономить на технике и аксессуарах
Вот и Forbes пишет, что без аналитике нынче никуда. В своей свежей статье они вам расскажут аж про 5 способов, как аналитика поможет бизнесу. Сейчас все просто, вам нужны инструменты для аналитики, люди, которые смогут работать с этими инструментами (могут быть и разработчики, аналитики и просто бизнес пользователи) и, конечно, вам необходимо понимать взаимоотношения данных и бизнес процессов, а то будет как в пословице - смотрю в дашборд, а вижу фигу;)
Forbes
Five Ways Data Analytics Can Drive Growth For Your Business
Create a company culture centered around data-driven decision making to achieve growth.
Учите Azure? Пользователь Reddit подготовил список ресурсов для подготовки к экзамену https://www.reddit.com/r/AZURE/comments/cp70ux/az103_lab_study_guide/
Reddit
From the AZURE community on Reddit: AZ-103 Lab Study Guide
Explore this post and more from the AZURE community
Любите делать аналитику в Google Sheets? (Главное не спутать с shit) то для вас обновочки https://www.androidpolice.com/2019/08/01/google-sheets-introduces-slicers-scorecards-and-themes-for-more-effective-data-visualization/
Android Police - Android news, reviews, apps, games, phones, tablets
Google Sheets introduces Slicers, Scorecards, and Themes for more effective data visualization
Google Sheets is a handy tool for tabulating and working on data, especially since it's cross-platform and free to use. While it doesn't yet match the
Почему бы вам не попробовать создать озеро данных на AWS? Лучший способ понять, что это такое, это попробовать повторить шаги из блога AWS. В данном случае используется cloud formation, это такой шаблон создания инфраструктуры. Если вам нужно копировать инфраструктуру и ее настройки, то вы можете один раз создать шаблон со всеми параметрами и использовать его, это очень экономит время.
Amazon
Getting started with AWS Lake Formation | Amazon Web Services
AWS Lake Formation enables you to set up a secure data lake. A data lake is a centralized, curated, and secured repository storing all your structured and unstructured data, at any scale. You can store your data as-is, without having first to structure it.…
Если вы следите за трендами аналитики, то вы уже слышали про Snowflake. Обычно все его хвалят, а вот оказывается не все. В любом случае у вас есть 30 дней, чтобы бесплатно попробовать. Ещё я заметил много компаний мигрирует не просто в облако, но уже начинают внутри облака менять продукты. Очень популярно с Redshift на Snowflake. Говорят дешевле получается. Или возможно не хватает инженеров поддерживать разросшийся кластер Redshift.
Distributed Systems Architecture
Snowflake: The Good, The Bad and The Ugly
Snowflake or SnowflakeDB is a cloud SaaS database for analytical workloads and batch data ingestion, typically used for building a data warehouse in the cloud. However, it appears to be so cool and shiny that people are getting mad at praising it all around…
Мы слышали, что data scientist зарабатывает больше всех. Вот и в новостях пишут TechRepublic: Data scientists: Earn the highest salary in these 5 cities.
https://www.techrepublic.com/article/data-scientists-earn-the-highest-salary-in-these-5-cities/ Но 127к в год в Америке, это конечно хорошо, но мы заплатим 50% налогов и останется не так много денег. А в городах, где платят такую зарплату, рент будет стоить 2-3к. А если у вас ещё семья, дети, то уже будете жить еле сводя концы с концами.
Другой момент, что такая зарплата и у BI, DWH, Data Engineers. По сути это новости искажены и далеки от реальности. Возможно бог экселя будет зарабатывать намного больше.
Кстати я узнал, что в Амазоне старшый дата инженер может зарабатывать до 400к в год (вместо со стоком).
Но проблема в корпоративной полиси, если вас взяли на 90к, то ваш рост не более 5% в год.
https://www.techrepublic.com/article/data-scientists-earn-the-highest-salary-in-these-5-cities/ Но 127к в год в Америке, это конечно хорошо, но мы заплатим 50% налогов и останется не так много денег. А в городах, где платят такую зарплату, рент будет стоить 2-3к. А если у вас ещё семья, дети, то уже будете жить еле сводя концы с концами.
Другой момент, что такая зарплата и у BI, DWH, Data Engineers. По сути это новости искажены и далеки от реальности. Возможно бог экселя будет зарабатывать намного больше.
Кстати я узнал, что в Амазоне старшый дата инженер может зарабатывать до 400к в год (вместо со стоком).
Но проблема в корпоративной полиси, если вас взяли на 90к, то ваш рост не более 5% в год.
TechRepublic
Data scientists: Earn the highest salary in these 5 cities
Data scientists earn an average salary of $121,189 per year in the US, according to Indeed.
Любите удивлять коллег необычными графиками? Bar/line графики для слабаков? Вот вам график улитка. Будьте первым, удивите ваших коллег вашей креативностью!;)
Medium
Introducing the Snail Chart
Similar to the spiral form of a snail’s house, the bars in a snail chart are continuously rotated to create a spiral.
Вы знакомы с термином ACID в теории биз данных? Он описывает требования к транзакционной системе (например, к СУБД), обеспечивающие наиболее надёжную и предсказуемую её работу. Требования ACID были в основном сформулированы в конце 70-х годов Джимом Греем.
Расшифровывается:
Atomicity — Атомарность
Атомарность гарантирует, что никакая транзакция не будет зафиксирована в системе частично. Будут либо выполнены все её подоперации, либо не выполнено ни одной. Поскольку на практике невозможно одновременно и атомарно выполнить всю последовательность операций внутри транзакции, вводится понятие «отката» (rollback): если транзакцию не удаётся полностью завершить, результаты всех её до сих пор произведённых действий будут отменены и система вернётся во «внешне исходное» состояние — со стороны будет казаться, что транзакции и не было.
Consistency — Согласованность
Транзакция, достигающая своего нормального завершения (EOT — end of transaction, завершение транзакции) и, тем самым, фиксирующая свои результаты, сохраняет согласованность базы данных. Другими словами, каждая успешная транзакция по определению фиксирует только допустимые результаты. Это условие является необходимым для поддержки четвёртого свойства.
Isolation — Изолированность
Во время выполнения транзакции параллельные транзакции не должны оказывать влияния на её результат. Изолированность — требование дорогое, поэтому в реальных БД существуют режимы, не полностью изолирующие транзакцию (уровни изолированности Repeatable Read и ниже).
Durability — Долговечность
Независимо от проблем на нижних уровнях (к примеру, обесточивание системы или сбои в оборудовании) изменения, сделанные успешно завершённой транзакцией, должны остаться сохранёнными после возвращения системы в работу. Другими словами, если пользователь получил подтверждение от системы, что транзакция выполнена, он может быть уверен, что сделанные им изменения не будут отменены из-за какого-либо сбоя.
А статья на медиум с примерами для Oracle/Postgres.
Расшифровывается:
Atomicity — Атомарность
Атомарность гарантирует, что никакая транзакция не будет зафиксирована в системе частично. Будут либо выполнены все её подоперации, либо не выполнено ни одной. Поскольку на практике невозможно одновременно и атомарно выполнить всю последовательность операций внутри транзакции, вводится понятие «отката» (rollback): если транзакцию не удаётся полностью завершить, результаты всех её до сих пор произведённых действий будут отменены и система вернётся во «внешне исходное» состояние — со стороны будет казаться, что транзакции и не было.
Consistency — Согласованность
Транзакция, достигающая своего нормального завершения (EOT — end of transaction, завершение транзакции) и, тем самым, фиксирующая свои результаты, сохраняет согласованность базы данных. Другими словами, каждая успешная транзакция по определению фиксирует только допустимые результаты. Это условие является необходимым для поддержки четвёртого свойства.
Isolation — Изолированность
Во время выполнения транзакции параллельные транзакции не должны оказывать влияния на её результат. Изолированность — требование дорогое, поэтому в реальных БД существуют режимы, не полностью изолирующие транзакцию (уровни изолированности Repeatable Read и ниже).
Durability — Долговечность
Независимо от проблем на нижних уровнях (к примеру, обесточивание системы или сбои в оборудовании) изменения, сделанные успешно завершённой транзакцией, должны остаться сохранёнными после возвращения системы в работу. Другими словами, если пользователь получил подтверждение от системы, что транзакция выполнена, он может быть уверен, что сделанные им изменения не будут отменены из-за какого-либо сбоя.
А статья на медиум с примерами для Oracle/Postgres.
Medium
MVCC in Oracle vs. PostgreSQL, and a little no-bloat beauty
Databases that are ACID compliant must provide consistency, even when there are concurrent updates.
Кстати, согласно новостям Oracle doing great, то есть вроде как мы его уже не жалуем для хранилищ данных, но это возможно всего лишь мой когнитивный баис, и компанию чувствует себя прекрасно.
Yahoo
Oracle Corporation (NYSE:ORCL) Earns Among The Best Returns In Its Industry
Today we'll look at Oracle Corporation (NYSE:ORCL) and reflect on its potential as an investment. Specifically, we'll...
Forwarded from Информация опасносте
еще одна смешная история. Я все склонялся к тому, что статья не очень по теме канала, но мне её столько раз прислали уже, что, видимо, я все-таки ошибаюсь (никогда такого не было, и вот опять!). Короче, статья о том, как чувак в Калифорнии зарегистрировал себе автомобильный номер NULL, возможно, надеясь, что это уменьшит количество штрафов, которые он будет получать. (ну и номер прикольный, да). Но оказалось, что штрафы в Калифорнии для их местного ГАИ выписывает коммерческий подрядчик, у которого в системе все было гораздо проще: если номер не распознался или отсутствует, в базу записывается NULL. Поэтому чуваку пришли все такие штрафы, на 12 тыс долларов. Хорошо.
https://www.wired.com/story/null-license-plate-landed-one-hacker-ticket-hell/
https://www.wired.com/story/null-license-plate-landed-one-hacker-ticket-hell/
WIRED
How a 'NULL' License Plate Landed One Hacker in Ticket Hell
Security researcher Joseph Tartaro thought NULL would make a fun license plate. He's never been more wrong.
Интересны блогпост от убера. Уже очевидно, что с облаком можно масштабировать вычислительные мощности и сторадж бесконечно, но теперь крупные потребители начинают задумываться о цене на владения облаком и придумывают способы оптимизации затрат. На помощь приходит ML/AI, которы помогает оптимизировать затраты.
И действительно, в алексе сейчас большой проект по снижение затрат на облачные вычисления и там цели сотни млн долларов. Даже я уже подумываю о том, чтобы сделать отчёт в табло про стоимость владения нашей инфраструктурой и отслеживания ресурсов типа ,Spectrum/Athena, где вы платите за то, что используете.
И действительно, в алексе сейчас большой проект по снижение затрат на облачные вычисления и там цели сотни млн долларов. Даже я уже подумываю о том, чтобы сделать отчёт в табло про стоимость владения нашей инфраструктурой и отслеживания ресурсов типа ,Spectrum/Athena, где вы платите за то, что используете.
Uber Engineering Blog
Less is More: Engineering Data Warehouse Efficiency with Minimalist Design
Data science helps Uber determine which tables in a database should be off-boarded to another source to maximize the efficiency of our data warehouse.
Вышла новая книга для любителей PowerBI, https://www.sqlbi.com/books/the-definitive-guide-to-dax-2nd-edition/
Sqlbi
The Definitive Guide to DAX – 2nd Edition - SQLBI
The Definitive Guide to DAX (Business intelligence with Microsoft Excel, SQL Server Analysis Services, and Power BI) is the most comprehensive and authorita
Я уже писал про важность безопасности при создании солюшена в облаке. Новый white paper.
Matillion
The Data Leader's Guide to Enterprise Cloud Security | Matillion Ebook
Download this eBook to learn some of the security-related considerations that arise when evaluating cloud-based solutions for your business intelligence initiatives.
Ещё одна компания по интеграции данных, уже получили 3й раунд инвестиций. Я про них не слышал, говорят, что создана выходцами из Oracle, как и сноуфлейк.https://techcrunch.com/2019/08/15/incorta-raises-30m-series-c-for-etl-free-data-processing-solution/
TechCrunch
Incorta raises $30M Series C for ETL-free data processing solution
Incorta, a startup founded by former Oracle executives who want to change the way we process large amounts of data, announced a $30 million Series C today led by Sorenson Capital. Other investors participating in the round included GV (formerly Google Ventures)…
Приходилось ли вам делать дашборды для мобильного телефона? Вот статья у табло учит нас как лучше это сделать.
Я уже больше 10 лет работаю с BI, и всегда хотел построить дашборд, чтобы менеджеры меня по головке погладили и сказали, ну какой же я молодец, подумал о них и сделал превосходный отчёт для телефона, они же жить без метрик не могут.
Так я всегда скачивал мобильную версию SAP Business objects, MicroStrategy, Tableau, Power BI и ТП. Но ни разу так и не сделал ничего путного и полезного. Обычно все упиралось в вопрос, а как доступ давать? VPN или ещё как-то, а что скажет служба безопасности и ИТ? Или куча других важных вещей. Поэтому я не фанат этих мобильных прибамбасов для аналитики.
Я уже больше 10 лет работаю с BI, и всегда хотел построить дашборд, чтобы менеджеры меня по головке погладили и сказали, ну какой же я молодец, подумал о них и сделал превосходный отчёт для телефона, они же жить без метрик не могут.
Так я всегда скачивал мобильную версию SAP Business objects, MicroStrategy, Tableau, Power BI и ТП. Но ни разу так и не сделал ничего путного и полезного. Обычно все упиралось в вопрос, а как доступ давать? VPN или ещё как-то, а что скажет служба безопасности и ИТ? Или куча других важных вещей. Поэтому я не фанат этих мобильных прибамбасов для аналитики.
Tableau
5 questions to ask when designing a mobile dashboard
This year, I have a goal to walk or run 1000 miles. Tracking my progress is a vital part of the fun for me. During the design the process, I asked myself several key questions, which you should also consider when developing your next dashboards. Don’t leave…
Оказывается Cloudera вместе с IBM предлагают свое решение для озера данных и их сравнивают с Amazon Elastic Map Reduce (Hadoop). Логично если вы в облаке, то удобней использовать решение от того провайдера, услугами которого вы пользуетесь. Меня одно радует во всей это BigData всё движется к упрощению процесса развертывания. Быстрее развернули решение, быстрее получили результат и не надо париться с настройкой хадупа. Хотя, джава программисты, которые не плохо на этом зарабатывают со мной не согласиться.
SearchAWS
What you need to know about Cloudera vs. AWS for big data
With the Hortonworks merger in the rearview, a fresh Cloudera data platform in the works and a partnership with IBM, Cloudera has reemerged as a serious AWS competitor in the big data analytics space.