Из нашего слака "с намеком на озеро данных" ссылочка https://tjournal.ru/internet/443115-prepodavateli-v-vuzah-ssha-zhaluyutsya-studenty-ne-umeyut-polzovatsya-sistemoy-papok-i-skidyvayut-vse-fayly-v-odno-mesto
TJ
Преподаватели в вузах США жалуются: студенты не умеют пользоваться системой папок и скидывают все файлы в одно место — Интернет…
Необычный пример разницы поколений: зумеры настолько привыкли гуглить и искать файлы через поиск, что сохранение проектов в иерархической системе сортировки файлов для них — непонятный пережиток прошлого.
Инженеры PayPal сравнивают BigQuery и Dataproc with Spark (как я понимаю это Hadoop кластер, такой же как AWS EMR, Azure Hdinsight). Вопрос интересный - условно классическое хранилище данных против big data озера данных.
Medium
Comparing BigQuery Processing and Spark Dataproc
Currently, PayPal is in the process of migrating its analytical workloads to Google Cloud Processing (GCP)
Статья написано про конкретный пример - пароли в Python, то есть о том, что нельзя хранить их в коде. На самом деле топик достаточно обширный. В облаках я уже привык использовать решения для безопасности, где я могу хранить ключи - AWS Secret Manager или Azure Key Vault. А как вы храните пароли, если не используете облако?
Другая проблема - это ротация паролей и ключей каждые 90 дней. Например, AWS Secret может сам меня ключ IAM secret key и подставлять в код - идеальный сценарий. У Azure, да и AWS можно вообще обходится без паролей, что тоже очень хорошая практика. Но интересно как с этим on premise?
"Stop Hardcoding Sensitive Data in Your Python Applications | by Ahmed Besbes | Sep, 2021 | Towards Data Science" https://towardsdatascience.com/stop-hardcoding-sensitive-data-in-your-python-applications-86eb2a96bec3
Другая проблема - это ротация паролей и ключей каждые 90 дней. Например, AWS Secret может сам меня ключ IAM secret key и подставлять в код - идеальный сценарий. У Azure, да и AWS можно вообще обходится без паролей, что тоже очень хорошая практика. Но интересно как с этим on premise?
"Stop Hardcoding Sensitive Data in Your Python Applications | by Ahmed Besbes | Sep, 2021 | Towards Data Science" https://towardsdatascience.com/stop-hardcoding-sensitive-data-in-your-python-applications-86eb2a96bec3
Forwarded from LEFT JOIN
Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты тексты телеграм-канала Интернет-аналитика и выделены те аналитические каналы, на которые Леша Никушин в нем ссылался. Получился список таких каналов и процедура проделана еще раз, итеративно: мы взяли тексты всех записей этих каналов и распарсили их, нашли упоминания всех других аналитических телеграм-каналов. С парсингом текстов помогал стажер Андрей, а затем я построил граф связей на основе полученных данных, используя тулзу из Georgia Tech.
В результате по показателю degree (количество связей), топ-10 каналов выглядит так:
1. Интернет-аналитика @internetanalytics
2. Reveal The Data @revealthedata
3. Инжиниринг Данных @rockyourdata
4. Data Events @data_events
5. Datalytics @datalytx
6. Чартомойка @chartomojka
7. LEFT JOIN @leftjoin
8. Epic Growth @epicgrowth_chat
9. RTD: ссылки и репосты @rtdlinks
10. Дашбордец @dashboardets
По-моему, получилось супер-круто и визуально интересно (тул немного глючит, поэтому сделайте зум-аут в правом нижнем углу), а Андрей – большой молодец! Кстати, он тоже начал свой канал «Это разве аналитика?», где публикуются новости аналитики.
Забегая вперед: у этой задачи имеется продолжение. С помощью Марковской цепи мы смоделировали в каком канале окажется пользователь, если будет переходить итеративно по всем упоминаниям в каналах. Получилось очень интересно, но об этом мы расскажем в следующий раз!
В результате по показателю degree (количество связей), топ-10 каналов выглядит так:
1. Интернет-аналитика @internetanalytics
2. Reveal The Data @revealthedata
3. Инжиниринг Данных @rockyourdata
4. Data Events @data_events
5. Datalytics @datalytx
6. Чартомойка @chartomojka
7. LEFT JOIN @leftjoin
8. Epic Growth @epicgrowth_chat
9. RTD: ссылки и репосты @rtdlinks
10. Дашбордец @dashboardets
По-моему, получилось супер-круто и визуально интересно (тул немного глючит, поэтому сделайте зум-аут в правом нижнем углу), а Андрей – большой молодец! Кстати, он тоже начал свой канал «Это разве аналитика?», где публикуются новости аналитики.
Забегая вперед: у этой задачи имеется продолжение. С помощью Марковской цепи мы смоделировали в каком канале окажется пользователь, если будет переходить итеративно по всем упоминаниям в каналах. Получилось очень интересно, но об этом мы расскажем в следующий раз!
LEFT JOIN
Граф телеграм-каналов по теме аналитики
Авторы самых разных блогов в телеграме часто публикуют подборки любимых каналов, которыми они хотят поделиться со своей аудиторией. Идея, конечно, не новая, но я решил не просто составить рейтинг интересных аналитических телеграм-блогов, а решить эту задачу…
Иногда в контексте встреч на работе встречается слово - vanilla, нет, это не про мороженное!
Vanilla software - In computer science, vanilla is the term used to refer when computer software and sometimes also other computing-related systems like computer hardware or algorithms are not customized from their original form, i.e., they are used without any customizations or updates applied to them.
Vanilla software has become a widespread de facto industry standard, widely used by businesses and individuals. The term comes from the traditional standard flavor of ice cream, vanilla.
According to Eric S. Raymond's The New Hacker's Dictionary, "vanilla" means more "default" than "ordinary".
Vanilla software - In computer science, vanilla is the term used to refer when computer software and sometimes also other computing-related systems like computer hardware or algorithms are not customized from their original form, i.e., they are used without any customizations or updates applied to them.
Vanilla software has become a widespread de facto industry standard, widely used by businesses and individuals. The term comes from the traditional standard flavor of ice cream, vanilla.
According to Eric S. Raymond's The New Hacker's Dictionary, "vanilla" means more "default" than "ordinary".
В августе вышла новая книга - Tableau Strategies (книжка не для новичков).
Содержание:
1. Categorical Analysis
2. Quantitative Analysis
3. Making Comparisons
4. Working With Time
5. Key Performance Indicators
6. Building Impactful Tables
7. Working With Geospatial Data
8. Advanced Mathematical Concepts
9. Constructing Dynamic Analyses
10. Advanced Data Modeling
11. Advanced Interactivity
12. Building Dashboards And Data Products
13. The Broader Tableau Ecosystem
14. Industry Frameworks
https://learning.oreilly.com/library/view/tableau-strategies/9781492080077/
Содержание:
1. Categorical Analysis
2. Quantitative Analysis
3. Making Comparisons
4. Working With Time
5. Key Performance Indicators
6. Building Impactful Tables
7. Working With Geospatial Data
8. Advanced Mathematical Concepts
9. Constructing Dynamic Analyses
10. Advanced Data Modeling
11. Advanced Interactivity
12. Building Dashboards And Data Products
13. The Broader Tableau Ecosystem
14. Industry Frameworks
https://learning.oreilly.com/library/view/tableau-strategies/9781492080077/
У нас в чатике Инжиниринг Данных много интересных дискуссий про зарплатные ожидания, про страны для миграция, про условия труда и тп. Когда у меня есть время повтыкать в телефон, например в очереди, то очень помогает с пользой скоротать время🙃 В общем, получилось классно.
Последняя тема была - курсы по математике для Data Science. Тема безусловно важная и в наши дни по ней очень много ресурсов. А я хотел рассказать про свой опыт по этому вопросу, но только в 2014 году.
Если отмотать время назад, то в 2010-2011 годах не было data science, но был data mining (всем известные методы регрессии, кластеризации, классификации) на основе математических моделей. В индустрии обычно банки использовали data mining для моделей кредитного скоринга и там работали математики, как правило. Я же работал в 2010 году в банке, и для меня кредитный и риск отдел это была элита.
Про data mining я узнал из книжки (must have для студентов datalearn) - Паклин Н.Б., Орешков В.И. - Бизнес-Аналитика От Данных К Знаниям (можете найти ее легко). В книге 3 части:
1) В целом про аналитику, BI, DW, ETL. Концепция, для 2010 года это была находка, ничего больше не было, кроме Кимбала и Инмана, а там уснешь пока их прочитаешь.
2) Про data mining методы, как работает математика и все такое. Ну я особо не вникал.
3) Бесполезная часть про их продукт deductor. Насколько я понимаю этот продукт неплохо справляется с задачами. Не знаю как у него сейчас дела. Кто знает?
Затем, работая в Терадата, некоторые консультанты побежали изучать Data Science напримере продукта Teradata Aster, там использовали R в основном. Несколько ребят неплохо развились в этом направлении и потом разъехались по миру.
Я был полностью погружен в изучение SQL и SAP Business Objects. Но тренда на дата саенс набирал обороты и я нашел хорошую книгу по этой теме - Doing Data Science 2013 год. Прочитал ее, но ничего не использовал. В это же время на курсере вышло много курсов по Data Science, причем все были на R. В то время, только ленивый не смотрел курсеру и не учил R.
В 2014 году я решил, что пора более углубленно изучать data science, НО!!! Мне нужен курс по математике сначала. А такого контента не было и в помине. Я пошел на Авито и стал писать репетиторам по математике, потом переписывался долго и упорно с ними. Но никто не мог понять, что мне нужно и как мне помочь. На этом, мое изучение data science закончилось и я стал больше фокусироваться на End to End решениях и интеграции данных из Source в облачное DW. А про роль Data Engineer я узнал только в 2016 году, а понял, что это такое, только в 2017.
Сейчас уже обратная проблема, как найти нормальные материалы в океане курсов и книг.
Последняя тема была - курсы по математике для Data Science. Тема безусловно важная и в наши дни по ней очень много ресурсов. А я хотел рассказать про свой опыт по этому вопросу, но только в 2014 году.
Если отмотать время назад, то в 2010-2011 годах не было data science, но был data mining (всем известные методы регрессии, кластеризации, классификации) на основе математических моделей. В индустрии обычно банки использовали data mining для моделей кредитного скоринга и там работали математики, как правило. Я же работал в 2010 году в банке, и для меня кредитный и риск отдел это была элита.
Про data mining я узнал из книжки (must have для студентов datalearn) - Паклин Н.Б., Орешков В.И. - Бизнес-Аналитика От Данных К Знаниям (можете найти ее легко). В книге 3 части:
1) В целом про аналитику, BI, DW, ETL. Концепция, для 2010 года это была находка, ничего больше не было, кроме Кимбала и Инмана, а там уснешь пока их прочитаешь.
2) Про data mining методы, как работает математика и все такое. Ну я особо не вникал.
3) Бесполезная часть про их продукт deductor. Насколько я понимаю этот продукт неплохо справляется с задачами. Не знаю как у него сейчас дела. Кто знает?
Затем, работая в Терадата, некоторые консультанты побежали изучать Data Science напримере продукта Teradata Aster, там использовали R в основном. Несколько ребят неплохо развились в этом направлении и потом разъехались по миру.
Я был полностью погружен в изучение SQL и SAP Business Objects. Но тренда на дата саенс набирал обороты и я нашел хорошую книгу по этой теме - Doing Data Science 2013 год. Прочитал ее, но ничего не использовал. В это же время на курсере вышло много курсов по Data Science, причем все были на R. В то время, только ленивый не смотрел курсеру и не учил R.
В 2014 году я решил, что пора более углубленно изучать data science, НО!!! Мне нужен курс по математике сначала. А такого контента не было и в помине. Я пошел на Авито и стал писать репетиторам по математике, потом переписывался долго и упорно с ними. Но никто не мог понять, что мне нужно и как мне помочь. На этом, мое изучение data science закончилось и я стал больше фокусироваться на End to End решениях и интеграции данных из Source в облачное DW. А про роль Data Engineer я узнал только в 2016 году, а понял, что это такое, только в 2017.
Сейчас уже обратная проблема, как найти нормальные материалы в океане курсов и книг.
Собеседование в X5 для инженера данных. Я бы его точно завалил. Classы я совсем не использую, но, наверно, в условиях высокой кастомизации и концентрации on-premise решений, без них уже не обойтись.
Хабр
Собеседование на позицию Data Engineer в Х5: чего ждать и как лучше подготовиться
О направлении Data Engineering в X5 В X5 Group активно развивают цифровые продукты, построенные на основе больших данных, использующие сложную аналитику и машинное обучение, такие как...
28 сентября день рабочего стола! С чем я вас и поздравляю! Присылайте свои рабочие места в комментарии. #деньрабочегостола
Data Lakehouse by Ihnmon.pdf
3.1 MB
Коротенькая книжка от отца хранилищ данных (при поддержки Databricks) - Building the Data Lakehouse
By Bill Inmon, father of the data warehouse. Странно, но книжка не полная, а лишь 35 страниц. Где ещё 170 не знаю🙄
By Bill Inmon, father of the data warehouse. Странно, но книжка не полная, а лишь 35 страниц. Где ещё 170 не знаю🙄
Следующий урок в Datalearn будет про Snowflake. У них как раз будет конференция Snowflake Build 4-5 Октября сразу в 3х регионах. Как минимум я вам рекомендую послушать Keynote (на любой конференции они интересны и полезны), чтобы знать куда движется аналитический продуктовый мир. https://www.snowflake.com/build/?utm_campaign=Teradata
Snowflake
BUILD
Join BUILD Dev Conference for AI & Apps on November 4 – 7, 2025! Discover the latest from Snowflake on apps, AI/ML and LLMs.
Я всегда говорю - собеседования это хорошо, лишний раз пообщаться с умными и интересными людьми никому не навредит😉
Я обратил внимание на разницу в вопросах между РФ и Северной Америке. Вот некоторые вопросы:
- Ваш пол - sex (3 варианта ответа)
- Как вы себя идентицируете - gender identity (11 вариантов ответа)
- Какой вы рассы (10 вариантов)
- Ваша сексуальная ориентация (7 вариантов)
- Есть ли у вас инвалидноть (disability)
- В штатах обязательно еще вопрос про ветеранский статус.
Конечно в каждом вопросе есть Other и I don't want to answer.
В РФ обычно один вопрос - какие зарплатные ожидания.
Я обратил внимание на разницу в вопросах между РФ и Северной Америке. Вот некоторые вопросы:
- Ваш пол - sex (3 варианта ответа)
- Как вы себя идентицируете - gender identity (11 вариантов ответа)
- Какой вы рассы (10 вариантов)
- Ваша сексуальная ориентация (7 вариантов)
- Есть ли у вас инвалидноть (disability)
- В штатах обязательно еще вопрос про ветеранский статус.
Конечно в каждом вопросе есть Other и I don't want to answer.
В РФ обычно один вопрос - какие зарплатные ожидания.
Совсем недавно Amazon анонсировал много классных новых устройств. Есть видео, где за 1 минуту вам все покажут и расскажут.
Когда я был в Амазоне, я был подписан на beta alexa, и мне каждый месяц присылали всякие новые девайсы попробовать. Но когда я уходил, все попросили сдать:(
Когда я был в Амазоне, я был подписан на beta alexa, и мне каждый месяц присылали всякие новые девайсы попробовать. Но когда я уходил, все попросили сдать:(
YouTube
Amazon's Devices and Services 2021 Event in 60 Seconds | Amazon News
Introducing Amazon’s latest devices and services Introducing a new line-up of devices, services, and features from Amazon, including:
- Amazon Astro, a home robot unlike any other.
- Amazon Glow, a new way to keep family close.
- Echo Show 15, the new…
- Amazon Astro, a home robot unlike any other.
- Amazon Glow, a new way to keep family close.
- Echo Show 15, the new…
Forwarded from Data Apps Design (Artemiy Kzr)
А вот служба поддержки разочаровывает 🙃
15 дней на ответ совсем не о том.
P.S. пытаюсь поставить clickhouse-jdbc-bridge на управляемую версию CH от Я.Облака, чтобы писать запросы к другим базам из CH. Хитрый замысел.
15 дней на ответ совсем не о том.
P.S. пытаюсь поставить clickhouse-jdbc-bridge на управляемую версию CH от Я.Облака, чтобы писать запросы к другим базам из CH. Хитрый замысел.
Хотите научиться работать с облачными базами данных и бесплатно сдать сертификационный экзамен DP-900?
Пройдите двухдневный тренинг от Microsoft 25 и 26 октября.
От экспертов Microsoft вы узнаете о важнейших принципах действия сервисов Azure, проверенных подходах и специфике работы с реляционными и нереляционными данными.
Успейте записаться на тренинг ⟶
PS Пост поддержал приют для собак Зоорассвет в Москве.
PPS Лично я уже сдал экзамен DP-900, очень хорошие материалы по основам аналитике, экзамен стоит того!
Пройдите двухдневный тренинг от Microsoft 25 и 26 октября.
От экспертов Microsoft вы узнаете о важнейших принципах действия сервисов Azure, проверенных подходах и специфике работы с реляционными и нереляционными данными.
Успейте записаться на тренинг ⟶
PS Пост поддержал приют для собак Зоорассвет в Москве.
PPS Лично я уже сдал экзамен DP-900, очень хорошие материалы по основам аналитике, экзамен стоит того!
Из мира игр:
Netflix купил студию, и продолжает развивать направление игр https://nightschoolstudio.com/joining-netflix/
Амазон выпустил свою первую большую игру New World 28 сентября: https://en.m.wikipedia.org/wiki/New_World_(video_game)
Ранее они открыли студию в Монреале https://www.amazongames.com/en-gb/news/articles/amazon-games-opens-development-studio-montreal
А вот Google и Stadia как-то приостановились. Но они были одни из первых в стриминге.
Сбер мутит игры, но как-то все шито-крыто, новостей не слышно.
Все это говорит о росте популярности игровой индустрии и как следствие аналитики, инжиниринга данных в игровой индустрии.
Netflix купил студию, и продолжает развивать направление игр https://nightschoolstudio.com/joining-netflix/
Амазон выпустил свою первую большую игру New World 28 сентября: https://en.m.wikipedia.org/wiki/New_World_(video_game)
Ранее они открыли студию в Монреале https://www.amazongames.com/en-gb/news/articles/amazon-games-opens-development-studio-montreal
А вот Google и Stadia как-то приостановились. Но они были одни из первых в стриминге.
Сбер мутит игры, но как-то все шито-крыто, новостей не слышно.
Все это говорит о росте популярности игровой индустрии и как следствие аналитики, инжиниринга данных в игровой индустрии.
Night School Studio
We are joining the Netflix team. - Night School Studio
As of today, Night School Studio is joining the Netflix team. Over the last few months, we've had countless thoughtful chats about our respective visions for where we see games, storytelling, and our collective opportunity for positive impact somewhere in…
Вам в помощь - клавиатура с CNTRL+C/CNTRL+V
https://drop.com/buy/stack-overflow-the-key-macropad#overview
PS Только для Senior ролей и выше!
https://drop.com/buy/stack-overflow-the-key-macropad#overview
PS Только для Senior ролей и выше!
Совсем недавно мы обсуждали доставку Insights через webhook в Microsoft Teams, а сегодня я увидел Tableau сообщило:
Goodbye, email. 📧
Hello, Slack! 👋
Выглядит красиво! Если у вас Tableau и Slack, то я вам завидую! Я раньше так делал в Splunk в 2015, не знаю, почему Табло не спешило делать такую фичу.
https://www.tableau.com/about/blog/2021/8/when-work-flows-insights-grow-tableau-app-slack
Goodbye, email. 📧
Hello, Slack! 👋
Выглядит красиво! Если у вас Tableau и Slack, то я вам завидую! Я раньше так делал в Splunk в 2015, не знаю, почему Табло не спешило делать такую фичу.
https://www.tableau.com/about/blog/2021/8/when-work-flows-insights-grow-tableau-app-slack