the_art_of_collaborative_data_science_at_scale_NEW_BRAND_NO_TEI.pdf
14.2 MB
The Art of Collaborative Data Science at Scale
A unified approach that boosts data science agility and productivity
Красивая брошюрка от Databricks
A unified approach that boosts data science agility and productivity
Красивая брошюрка от Databricks
В Амазоне был большой плюс за счет email group по всем напрвлениям. Можно считать, что это как community. Можно писать в группу про Табло, DE, DS, и много других. За счет этого работая в одной команде, можно общаться со всеми. Эти группы еще часто использовались для не совсем легального переманивания сотрудников HRами. Но главное правило Амазона - никаких повышений при переходе, так что внутренний переход, это обычно почти как понижение. Я сделал таких аж 3, зато повышение опыта в геометрической прогрессии.
В Майкрософт все наоборот, групп нет. Есть Yammer, это продукт Microsoft Office, смесь форума и SharePoint. В общем, нет возможности общаться с другими. Я даже создал страницу по аналитике на ямере, но за год пришло 10 человек.
Но потом я нашел другое мероприятие - Azure Bootcamp, это внутренние тренинги для новичков всего Azure и всех других желающих, вот для них я и сделаю презентацию, буду рассказывать в Azure про AWS и GCP😎
Getting started with Modern Data Stack: from Database to Lake House
Learn about key milestones in analytics and data engineering space starting from simple reporting solutions on top of SMP databases, moving towards MPP data warehouses, rise and fall of Hadoop ecosystem. Finally, will shift towards modern data stack with rise of cloud computing. Then I will explain the key concepts of Lake house architecture and review the data analytics market including AWS, Azure and GCP solutions, as well as third parties’ solutions like Databricks and Snowflake and popular data integrations tools. Finally, I will show couple reference architectures built on top of AWS and Azure for data warehousing, big data and ML use cases.
В Майкрософт все наоборот, групп нет. Есть Yammer, это продукт Microsoft Office, смесь форума и SharePoint. В общем, нет возможности общаться с другими. Я даже создал страницу по аналитике на ямере, но за год пришло 10 человек.
Но потом я нашел другое мероприятие - Azure Bootcamp, это внутренние тренинги для новичков всего Azure и всех других желающих, вот для них я и сделаю презентацию, буду рассказывать в Azure про AWS и GCP😎
Getting started with Modern Data Stack: from Database to Lake House
Learn about key milestones in analytics and data engineering space starting from simple reporting solutions on top of SMP databases, moving towards MPP data warehouses, rise and fall of Hadoop ecosystem. Finally, will shift towards modern data stack with rise of cloud computing. Then I will explain the key concepts of Lake house architecture and review the data analytics market including AWS, Azure and GCP solutions, as well as third parties’ solutions like Databricks and Snowflake and popular data integrations tools. Finally, I will show couple reference architectures built on top of AWS and Azure for data warehousing, big data and ML use cases.
В Microsoft Teams есть крутая возможность отправлять сообщение через webhook, так же как и в slack, telegram и другие. Но у teams какие-то невероятные возможности, можно отправлять дашборды, делать кнопки, отправлять запросы и получать графики. У меня пока только получается выполнять SQL в databricks и отправлять сообщения в тексте. Но я нашел библиотеки графиков, только не понятно как ими пользоваться, может вам пригодтся. Это моя давняя мечта сделать BI в чат ботах, все insights по требования, все рассылки по показателям в своих каналах. https://dev.teams.microsoft.com/storybook/main/index.html?path=/story/ui-templates-dashboards--with-data-vizualization
https://docs.microsoft.com/en-us/microsoftteams/platform/concepts/design/design-teams-app-ui-templates
https://docs.microsoft.com/en-us/microsoftteams/platform/concepts/design/design-teams-app-ui-templates
Twilio сделало интерактивную игру, в который вы можете учить программирование https://www.twilio.com/quest
Top-Secret JavaScript Test Lab
At a remote research station deep within The Cloud, TwilioQuest scientists study the raw and untamed power of the JavaScript programming language. Join the research team and prepare yourself for an explosive discovery!
Mysteries of the Pythonic Temple
Uncover the secrets of the Python programming language as you explore the ancient Pythonic Temple, the last surviving structure of the fabled City of Python.
OSS Elephpant
Explore a colony ship of techno-anarchist PHP developers known as the OSS Elephpant. Assist the ship's onboard AI to restore critical systems and save the colonists, while learning the PHP programming language!
The Flame of Open Source
The evil Legacy Systems have stolen the legendary Flame of Open Source and hidden it in the center of a maze in an enchanted forest! Reclaim this lost power and clear the way for all developers to contribute to open source.
Top-Secret JavaScript Test Lab
At a remote research station deep within The Cloud, TwilioQuest scientists study the raw and untamed power of the JavaScript programming language. Join the research team and prepare yourself for an explosive discovery!
Mysteries of the Pythonic Temple
Uncover the secrets of the Python programming language as you explore the ancient Pythonic Temple, the last surviving structure of the fabled City of Python.
OSS Elephpant
Explore a colony ship of techno-anarchist PHP developers known as the OSS Elephpant. Assist the ship's onboard AI to restore critical systems and save the colonists, while learning the PHP programming language!
The Flame of Open Source
The evil Legacy Systems have stolen the legendary Flame of Open Source and hidden it in the center of a maze in an enchanted forest! Reclaim this lost power and clear the way for all developers to contribute to open source.
GitHub
TerminalQuest
Answer the call of the cursor, and discover your power to change the world with code. - TerminalQuest
Forwarded from Data Coffee
Доброго утречка, уважаемые слушатели! Подкаст “Data Coffee”🎙 спешит порадовать вас свежим эпизодом.
Поговорили в этот раз про open source BI-инструмент — Apache Superset. Не пропустите😉
#datacoffee #data #podcast #данные #подкаст
https://anchor.fm/data-coffee/episodes/18--Apache-Superset-e17q7ol
Поговорили в этот раз про open source BI-инструмент — Apache Superset. Не пропустите😉
#datacoffee #data #podcast #данные #подкаст
https://anchor.fm/data-coffee/episodes/18--Apache-Superset-e17q7ol
Spotify for Podcasters
18. Apache Superset by Data Coffee
Тема выпуска "Apache Superset"!
Подкаст `Data Coffee` — информационный партнёр конференции SmartData 2021. SmartData — это большая техническая конференция по Data Engineering. Десятки докладов, воркшопов, Q&A-сессий — первые доклады и имена спикеров уже…
Подкаст `Data Coffee` — информационный партнёр конференции SmartData 2021. SmartData — это большая техническая конференция по Data Engineering. Десятки докладов, воркшопов, Q&A-сессий — первые доклады и имена спикеров уже…
Отличные примеры про использование error handler in Python "Python Try and Except Statements – How to Handle Exceptions in Python" https://www.freecodecamp.org/news/python-try-and-except-statements-how-to-handle-exceptions-in-python/
freeCodeCamp.org
Python Try and Except Statements – How to Handle Exceptions in Python
When coding in Python, you can often anticipate runtime errors even in a syntactically and logically correct program. These errors can be caused by invalid inputs or some predictable inconsistencies. In Python, you can use the try and the except blo...
Из нашего слака "с намеком на озеро данных" ссылочка https://tjournal.ru/internet/443115-prepodavateli-v-vuzah-ssha-zhaluyutsya-studenty-ne-umeyut-polzovatsya-sistemoy-papok-i-skidyvayut-vse-fayly-v-odno-mesto
TJ
Преподаватели в вузах США жалуются: студенты не умеют пользоваться системой папок и скидывают все файлы в одно место — Интернет…
Необычный пример разницы поколений: зумеры настолько привыкли гуглить и искать файлы через поиск, что сохранение проектов в иерархической системе сортировки файлов для них — непонятный пережиток прошлого.
Инженеры PayPal сравнивают BigQuery и Dataproc with Spark (как я понимаю это Hadoop кластер, такой же как AWS EMR, Azure Hdinsight). Вопрос интересный - условно классическое хранилище данных против big data озера данных.
Medium
Comparing BigQuery Processing and Spark Dataproc
Currently, PayPal is in the process of migrating its analytical workloads to Google Cloud Processing (GCP)
Статья написано про конкретный пример - пароли в Python, то есть о том, что нельзя хранить их в коде. На самом деле топик достаточно обширный. В облаках я уже привык использовать решения для безопасности, где я могу хранить ключи - AWS Secret Manager или Azure Key Vault. А как вы храните пароли, если не используете облако?
Другая проблема - это ротация паролей и ключей каждые 90 дней. Например, AWS Secret может сам меня ключ IAM secret key и подставлять в код - идеальный сценарий. У Azure, да и AWS можно вообще обходится без паролей, что тоже очень хорошая практика. Но интересно как с этим on premise?
"Stop Hardcoding Sensitive Data in Your Python Applications | by Ahmed Besbes | Sep, 2021 | Towards Data Science" https://towardsdatascience.com/stop-hardcoding-sensitive-data-in-your-python-applications-86eb2a96bec3
Другая проблема - это ротация паролей и ключей каждые 90 дней. Например, AWS Secret может сам меня ключ IAM secret key и подставлять в код - идеальный сценарий. У Azure, да и AWS можно вообще обходится без паролей, что тоже очень хорошая практика. Но интересно как с этим on premise?
"Stop Hardcoding Sensitive Data in Your Python Applications | by Ahmed Besbes | Sep, 2021 | Towards Data Science" https://towardsdatascience.com/stop-hardcoding-sensitive-data-in-your-python-applications-86eb2a96bec3
Forwarded from LEFT JOIN
Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты тексты телеграм-канала Интернет-аналитика и выделены те аналитические каналы, на которые Леша Никушин в нем ссылался. Получился список таких каналов и процедура проделана еще раз, итеративно: мы взяли тексты всех записей этих каналов и распарсили их, нашли упоминания всех других аналитических телеграм-каналов. С парсингом текстов помогал стажер Андрей, а затем я построил граф связей на основе полученных данных, используя тулзу из Georgia Tech.
В результате по показателю degree (количество связей), топ-10 каналов выглядит так:
1. Интернет-аналитика @internetanalytics
2. Reveal The Data @revealthedata
3. Инжиниринг Данных @rockyourdata
4. Data Events @data_events
5. Datalytics @datalytx
6. Чартомойка @chartomojka
7. LEFT JOIN @leftjoin
8. Epic Growth @epicgrowth_chat
9. RTD: ссылки и репосты @rtdlinks
10. Дашбордец @dashboardets
По-моему, получилось супер-круто и визуально интересно (тул немного глючит, поэтому сделайте зум-аут в правом нижнем углу), а Андрей – большой молодец! Кстати, он тоже начал свой канал «Это разве аналитика?», где публикуются новости аналитики.
Забегая вперед: у этой задачи имеется продолжение. С помощью Марковской цепи мы смоделировали в каком канале окажется пользователь, если будет переходить итеративно по всем упоминаниям в каналах. Получилось очень интересно, но об этом мы расскажем в следующий раз!
В результате по показателю degree (количество связей), топ-10 каналов выглядит так:
1. Интернет-аналитика @internetanalytics
2. Reveal The Data @revealthedata
3. Инжиниринг Данных @rockyourdata
4. Data Events @data_events
5. Datalytics @datalytx
6. Чартомойка @chartomojka
7. LEFT JOIN @leftjoin
8. Epic Growth @epicgrowth_chat
9. RTD: ссылки и репосты @rtdlinks
10. Дашбордец @dashboardets
По-моему, получилось супер-круто и визуально интересно (тул немного глючит, поэтому сделайте зум-аут в правом нижнем углу), а Андрей – большой молодец! Кстати, он тоже начал свой канал «Это разве аналитика?», где публикуются новости аналитики.
Забегая вперед: у этой задачи имеется продолжение. С помощью Марковской цепи мы смоделировали в каком канале окажется пользователь, если будет переходить итеративно по всем упоминаниям в каналах. Получилось очень интересно, но об этом мы расскажем в следующий раз!
LEFT JOIN
Граф телеграм-каналов по теме аналитики
Авторы самых разных блогов в телеграме часто публикуют подборки любимых каналов, которыми они хотят поделиться со своей аудиторией. Идея, конечно, не новая, но я решил не просто составить рейтинг интересных аналитических телеграм-блогов, а решить эту задачу…
Иногда в контексте встреч на работе встречается слово - vanilla, нет, это не про мороженное!
Vanilla software - In computer science, vanilla is the term used to refer when computer software and sometimes also other computing-related systems like computer hardware or algorithms are not customized from their original form, i.e., they are used without any customizations or updates applied to them.
Vanilla software has become a widespread de facto industry standard, widely used by businesses and individuals. The term comes from the traditional standard flavor of ice cream, vanilla.
According to Eric S. Raymond's The New Hacker's Dictionary, "vanilla" means more "default" than "ordinary".
Vanilla software - In computer science, vanilla is the term used to refer when computer software and sometimes also other computing-related systems like computer hardware or algorithms are not customized from their original form, i.e., they are used without any customizations or updates applied to them.
Vanilla software has become a widespread de facto industry standard, widely used by businesses and individuals. The term comes from the traditional standard flavor of ice cream, vanilla.
According to Eric S. Raymond's The New Hacker's Dictionary, "vanilla" means more "default" than "ordinary".
В августе вышла новая книга - Tableau Strategies (книжка не для новичков).
Содержание:
1. Categorical Analysis
2. Quantitative Analysis
3. Making Comparisons
4. Working With Time
5. Key Performance Indicators
6. Building Impactful Tables
7. Working With Geospatial Data
8. Advanced Mathematical Concepts
9. Constructing Dynamic Analyses
10. Advanced Data Modeling
11. Advanced Interactivity
12. Building Dashboards And Data Products
13. The Broader Tableau Ecosystem
14. Industry Frameworks
https://learning.oreilly.com/library/view/tableau-strategies/9781492080077/
Содержание:
1. Categorical Analysis
2. Quantitative Analysis
3. Making Comparisons
4. Working With Time
5. Key Performance Indicators
6. Building Impactful Tables
7. Working With Geospatial Data
8. Advanced Mathematical Concepts
9. Constructing Dynamic Analyses
10. Advanced Data Modeling
11. Advanced Interactivity
12. Building Dashboards And Data Products
13. The Broader Tableau Ecosystem
14. Industry Frameworks
https://learning.oreilly.com/library/view/tableau-strategies/9781492080077/
У нас в чатике Инжиниринг Данных много интересных дискуссий про зарплатные ожидания, про страны для миграция, про условия труда и тп. Когда у меня есть время повтыкать в телефон, например в очереди, то очень помогает с пользой скоротать время🙃 В общем, получилось классно.
Последняя тема была - курсы по математике для Data Science. Тема безусловно важная и в наши дни по ней очень много ресурсов. А я хотел рассказать про свой опыт по этому вопросу, но только в 2014 году.
Если отмотать время назад, то в 2010-2011 годах не было data science, но был data mining (всем известные методы регрессии, кластеризации, классификации) на основе математических моделей. В индустрии обычно банки использовали data mining для моделей кредитного скоринга и там работали математики, как правило. Я же работал в 2010 году в банке, и для меня кредитный и риск отдел это была элита.
Про data mining я узнал из книжки (must have для студентов datalearn) - Паклин Н.Б., Орешков В.И. - Бизнес-Аналитика От Данных К Знаниям (можете найти ее легко). В книге 3 части:
1) В целом про аналитику, BI, DW, ETL. Концепция, для 2010 года это была находка, ничего больше не было, кроме Кимбала и Инмана, а там уснешь пока их прочитаешь.
2) Про data mining методы, как работает математика и все такое. Ну я особо не вникал.
3) Бесполезная часть про их продукт deductor. Насколько я понимаю этот продукт неплохо справляется с задачами. Не знаю как у него сейчас дела. Кто знает?
Затем, работая в Терадата, некоторые консультанты побежали изучать Data Science напримере продукта Teradata Aster, там использовали R в основном. Несколько ребят неплохо развились в этом направлении и потом разъехались по миру.
Я был полностью погружен в изучение SQL и SAP Business Objects. Но тренда на дата саенс набирал обороты и я нашел хорошую книгу по этой теме - Doing Data Science 2013 год. Прочитал ее, но ничего не использовал. В это же время на курсере вышло много курсов по Data Science, причем все были на R. В то время, только ленивый не смотрел курсеру и не учил R.
В 2014 году я решил, что пора более углубленно изучать data science, НО!!! Мне нужен курс по математике сначала. А такого контента не было и в помине. Я пошел на Авито и стал писать репетиторам по математике, потом переписывался долго и упорно с ними. Но никто не мог понять, что мне нужно и как мне помочь. На этом, мое изучение data science закончилось и я стал больше фокусироваться на End to End решениях и интеграции данных из Source в облачное DW. А про роль Data Engineer я узнал только в 2016 году, а понял, что это такое, только в 2017.
Сейчас уже обратная проблема, как найти нормальные материалы в океане курсов и книг.
Последняя тема была - курсы по математике для Data Science. Тема безусловно важная и в наши дни по ней очень много ресурсов. А я хотел рассказать про свой опыт по этому вопросу, но только в 2014 году.
Если отмотать время назад, то в 2010-2011 годах не было data science, но был data mining (всем известные методы регрессии, кластеризации, классификации) на основе математических моделей. В индустрии обычно банки использовали data mining для моделей кредитного скоринга и там работали математики, как правило. Я же работал в 2010 году в банке, и для меня кредитный и риск отдел это была элита.
Про data mining я узнал из книжки (must have для студентов datalearn) - Паклин Н.Б., Орешков В.И. - Бизнес-Аналитика От Данных К Знаниям (можете найти ее легко). В книге 3 части:
1) В целом про аналитику, BI, DW, ETL. Концепция, для 2010 года это была находка, ничего больше не было, кроме Кимбала и Инмана, а там уснешь пока их прочитаешь.
2) Про data mining методы, как работает математика и все такое. Ну я особо не вникал.
3) Бесполезная часть про их продукт deductor. Насколько я понимаю этот продукт неплохо справляется с задачами. Не знаю как у него сейчас дела. Кто знает?
Затем, работая в Терадата, некоторые консультанты побежали изучать Data Science напримере продукта Teradata Aster, там использовали R в основном. Несколько ребят неплохо развились в этом направлении и потом разъехались по миру.
Я был полностью погружен в изучение SQL и SAP Business Objects. Но тренда на дата саенс набирал обороты и я нашел хорошую книгу по этой теме - Doing Data Science 2013 год. Прочитал ее, но ничего не использовал. В это же время на курсере вышло много курсов по Data Science, причем все были на R. В то время, только ленивый не смотрел курсеру и не учил R.
В 2014 году я решил, что пора более углубленно изучать data science, НО!!! Мне нужен курс по математике сначала. А такого контента не было и в помине. Я пошел на Авито и стал писать репетиторам по математике, потом переписывался долго и упорно с ними. Но никто не мог понять, что мне нужно и как мне помочь. На этом, мое изучение data science закончилось и я стал больше фокусироваться на End to End решениях и интеграции данных из Source в облачное DW. А про роль Data Engineer я узнал только в 2016 году, а понял, что это такое, только в 2017.
Сейчас уже обратная проблема, как найти нормальные материалы в океане курсов и книг.
Собеседование в X5 для инженера данных. Я бы его точно завалил. Classы я совсем не использую, но, наверно, в условиях высокой кастомизации и концентрации on-premise решений, без них уже не обойтись.
Хабр
Собеседование на позицию Data Engineer в Х5: чего ждать и как лучше подготовиться
О направлении Data Engineering в X5 В X5 Group активно развивают цифровые продукты, построенные на основе больших данных, использующие сложную аналитику и машинное обучение, такие как...
28 сентября день рабочего стола! С чем я вас и поздравляю! Присылайте свои рабочие места в комментарии. #деньрабочегостола
Data Lakehouse by Ihnmon.pdf
3.1 MB
Коротенькая книжка от отца хранилищ данных (при поддержки Databricks) - Building the Data Lakehouse
By Bill Inmon, father of the data warehouse. Странно, но книжка не полная, а лишь 35 страниц. Где ещё 170 не знаю🙄
By Bill Inmon, father of the data warehouse. Странно, но книжка не полная, а лишь 35 страниц. Где ещё 170 не знаю🙄
Следующий урок в Datalearn будет про Snowflake. У них как раз будет конференция Snowflake Build 4-5 Октября сразу в 3х регионах. Как минимум я вам рекомендую послушать Keynote (на любой конференции они интересны и полезны), чтобы знать куда движется аналитический продуктовый мир. https://www.snowflake.com/build/?utm_campaign=Teradata
Snowflake
BUILD
Join BUILD Dev Conference for AI & Apps on November 4 – 7, 2025! Discover the latest from Snowflake on apps, AI/ML and LLMs.
Я всегда говорю - собеседования это хорошо, лишний раз пообщаться с умными и интересными людьми никому не навредит😉
Я обратил внимание на разницу в вопросах между РФ и Северной Америке. Вот некоторые вопросы:
- Ваш пол - sex (3 варианта ответа)
- Как вы себя идентицируете - gender identity (11 вариантов ответа)
- Какой вы рассы (10 вариантов)
- Ваша сексуальная ориентация (7 вариантов)
- Есть ли у вас инвалидноть (disability)
- В штатах обязательно еще вопрос про ветеранский статус.
Конечно в каждом вопросе есть Other и I don't want to answer.
В РФ обычно один вопрос - какие зарплатные ожидания.
Я обратил внимание на разницу в вопросах между РФ и Северной Америке. Вот некоторые вопросы:
- Ваш пол - sex (3 варианта ответа)
- Как вы себя идентицируете - gender identity (11 вариантов ответа)
- Какой вы рассы (10 вариантов)
- Ваша сексуальная ориентация (7 вариантов)
- Есть ли у вас инвалидноть (disability)
- В штатах обязательно еще вопрос про ветеранский статус.
Конечно в каждом вопросе есть Other и I don't want to answer.
В РФ обычно один вопрос - какие зарплатные ожидания.